CN113342930A - 基于串向量的文本表示方法和装置、电子设备、存储介质 - Google Patents

基于串向量的文本表示方法和装置、电子设备、存储介质 Download PDF

Info

Publication number
CN113342930A
CN113342930A CN202110565711.3A CN202110565711A CN113342930A CN 113342930 A CN113342930 A CN 113342930A CN 202110565711 A CN202110565711 A CN 202110565711A CN 113342930 A CN113342930 A CN 113342930A
Authority
CN
China
Prior art keywords
text
character string
target text
character
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110565711.3A
Other languages
English (en)
Other versions
CN113342930B (zh
Inventor
梁吉光
徐凯波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN202110565711.3A priority Critical patent/CN113342930B/zh
Publication of CN113342930A publication Critical patent/CN113342930A/zh
Application granted granted Critical
Publication of CN113342930B publication Critical patent/CN113342930B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种基于串向量的文本表示方法和装置、电子设备、存储介质,其中,该方法包括:获取目标文本,目标文本为待文本向量化表示的文本;利用多模式串匹配模型对目标文本进行字符串匹配,得到第一字符串集合和第二字符串集合,第一字符串集合包括多模式串匹配模型在目标文本中匹配到的字符串,第二字符串集合包括目标文本中多模式串匹配模型未匹配到的字符串;将第一字符串集合中的字符串和第二字符串集合中的字符串按照在目标文本中的位置拼接为多个分片句子;利用多个分片句子的句子向量确定目标文本的文本向量。本申请解决了相关技术中的文本表示方法需要对中文文本进行分词,从而带来了语义损失的技术问题。

Description

基于串向量的文本表示方法和装置、电子设备、存储介质
技术领域
本申请涉及自然语言处理领域,尤其涉及一种基于串向量的文本表示方法和装置、电子设备、存储介质。
背景技术
自然语言处理(NLP,Natural Language Processing)是计算机科学领域与人工智能领域中的一个重要方向。相关技术主要对词和字进行向量化研究,尤其是词向量更是备受青睐。字向量研究以单字为研究粒度,只考虑字与字的共现关系,未利用词所带有的语义信息,因此并未在文本向量化表示的研究中所重视。词向量是近十年以来自然语言处理中语义表示的一种至关重要技术手段,其语义表示效果远超one-hot模型(独热编码模型)、概率模型,备受学界和工业界的学者推崇。词向量在中文和英文两个语种的研究有很大的不同,中文需要进行分词,而英文天然靠空格进行了分词。中文分词算法有很多,造成分词器有很多,更因分词标注不统一导致分词结果很多种。分词不正确会将误差级联到词向量环节,导致词向量没有得到很好的学习,即词语得不到有效的语义表示,最终会导致中文文本得不到有效的语义表示。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请提供了一种基于串向量的文本表示方法和装置、电子设备、存储介质,以至少解决相关技术中文本表示方法需要对中文文本进行分词,从而带来语义损失的技术问题。
根据本申请实施例的一个方面,提供了一种基于串向量的文本表示方法,包括:获取目标文本,其中,目标文本为待文本向量化表示的文本;利用多模式串匹配模型对目标文本进行字符串匹配,得到第一字符串集合和第二字符串集合,其中,第一字符串集合包括多模式串匹配模型在目标文本中匹配到的字符串,第二字符串集合包括目标文本中多模式串匹配模型未匹配到的字符串;将第一字符串集合中的字符串和第二字符串集合中的字符串按照在目标文本中的位置拼接为多个分片句子;利用多个分片句子的句子向量确定目标文本的文本向量。
可选地,利用多个分片句子的句子向量确定目标文本的文本向量包括:利用向量编码模型获取每个分片句子的句子向量,其中,向量编码模型是预先训练好的用于确定句子向量的模型;将多个分片句子的句子向量取平均值,得到目标文本的文本向量。
可选地,在利用向量编码模型获取每个分片句子的句子向量之前,方法还包括:读取用于训练向量编码模型的语料样本库;利用多模式串匹配模型对语料样本库内的每段文本进行字符串匹配,得到语料样本库内每段文本的第一字符串样本集和第二字符串样本集,其中,第一字符串样本集包括多模式串匹配模型在每段文本中匹配到的字符串,第二字符串样本集包括每段文本中多模式串匹配模型未匹配到的字符串;将语料样本库内每段文本的第一字符串样本集和第二字符串样本集中的字符串按照在文本中的位置拼接,得到语料样本库内每段文本对应的分片句子样本集;根据分片句子样本集中每个分片句子的字符串向量生成分片句子的原始向量;将分片句子样本集中各个分片句子的原始向量输入向量编码模型,以对向量编码模型进行模型训练,其中,模型训练包括将向量编码模型的模型参数调整为目标值,向量编码模型的模型参数为目标值的情况下所输出的所有句子向量的维度值为正整数N。
可选地,利用多模式串匹配模型对目标文本进行字符串匹配,得到第一字符串集合和第二字符串集合包括:利用多模式串匹配模型从目标文本中识别出中文字符串,并将识别出的中文字符串保存至第一字符串集合;将目标文本中未被识别出中文字符串的文本片段进行拆字处理,将拆字得到的中文字符串保存至第二字符串集合。
可选地,在利用多模式串匹配模型从目标文本中识别出中文字符串之前,该方法还包括:读取已知词典中的词语;利用已知词典中的词语构建有限状态模式匹配机,以完成对多模式串匹配模型的训练。
可选地,在利用多模式串匹配模型从目标文本中识别出中文字符串的过程中,该方法还包括:记录对目标文本中中文字符串的M种划分方式,其中,任意两种划分方式对应的第一字符串集合中存在不同的中文字符串和/或对应的第二字符串集合中存在不同的中文字符串,M为正整数。
可选地,将第一字符串集合中的字符串和第二字符串集合中的字符串按照在目标文本中的位置拼接为多个分片句子包括:获取对目标文本中中文字符串的M种划分方式;按照如下方式确定M种划分方式中每种划分方式对应的分片句子:取出第一字符串集合中按照目标划分方式划分得到的中文字符串和第二字符串集合中按照目标划分方式划分得到的中文字符串,其中,目标划分方式为M种划分方式中当前处理的划分方式;将从第一字符串集合和第二字符串集合中取出的中文字符串按照在目标文本中的位置进行拼接,得到目标划分方式对应的分片句子。
根据本申请实施例的另一方面,还提供了一种基于串向量的文本表示装置,包括:获取模块,用于获取目标文本,其中,目标文本为待文本向量化表示的文本;匹配模块,用于利用多模式串匹配模型对目标文本进行字符串匹配,得到第一字符串集合和第二字符串集合,其中,第一字符串集合包括多模式串匹配模型在目标文本中匹配到的字符串,第二字符串集合包括目标文本中多模式串匹配模型未匹配到的字符串;拼接模块,用于将第一字符串集合中的字符串和第二字符串集合中的字符串按照在目标文本中的位置拼接为多个分片句子;表示模块,用于利用多个分片句子的句子向量确定目标文本的文本向量。
可选地,表示模块包括:句子向量获取单元,用于利用向量编码模型获取每个分片句子的句子向量,其中,向量编码模型是预先训练好的用于确定句子向量的模型;计算单元:用于将多个分片句子的句子向量取平均值,得到目标文本的文本向量。
可选地,获取模块还用于:读取用于训练向量编码模型的语料样本库。
可选地,匹配模块还用于:利用多模式串匹配模型对语料样本库内的每段文本进行字符串匹配,得到语料样本库内每段文本的第一字符串样本集和第二字符串样本集,其中,第一字符串样本集包括多模式串匹配模型在每段文本中匹配到的字符串,第二字符串样本集包括每段文本中多模式串匹配模型未匹配到的字符串。
可选地,拼接模块还用于:将语料样本库内每段文本的第一字符串样本集和第二字符串样本集中的字符串按照在文本中的位置拼接,得到语料样本库内每段文本对应的分片句子样本集。
可选地,上述装置还包括:生成模块,用于根据分片句子样本集中每个分片句子的字符串向量生成分片句子的原始向量;输入模块,用于将分片句子样本集中各个分片句子的原始向量输入向量编码模型,以对向量编码模型进行模型训练,其中,模型训练包括将向量编码模型的模型参数调整为目标值,向量编码模型的模型参数为目标值的情况下所输出的所有句子向量的维度值为正整数N。
可选地,匹配模块包括:识别单元,用于利用多模式串匹配模型从目标文本中识别出中文字符串,并将识别出的中文字符串保存至第一字符串集合;拆字单元,用于将目标文本中未被识别出中文字符串的文本片段进行拆字处理,将拆字得到的中文字符串保存至第二字符串集合。
可选地,上述装置还包括:读取模块,用于读取已知词典中的词语;构建模块,用于利用已知词典中的词语构建有限状态模式匹配机,以完成对多模式串匹配模型的训练。
可选地,上述装置还包括:记录模块,用于记录对目标文本中中文字符串的M种划分方式,其中,任意两种划分方式对应的第一字符串集合中存在不同的中文字符串和/或对应的第二字符串集合中存在不同的中文字符串,M为正整数。
可选地,拼接模块包括:划分方式获取单元,用于获取对目标文本中中文字符串的M种划分方式;确定单元,用于按照如下方式确定M种划分方式中每种划分方式对应的分片句子:取出第一字符串集合中按照目标划分方式划分得到的中文字符串和第二字符串集合中按照目标划分方式划分得到的中文字符串,其中,目标划分方式为M种划分方式中当前处理的划分方式;将从第一字符串集合和第二字符串集合中取出的中文字符串按照在目标文本中的位置进行拼接,得到目标划分方式对应的分片句子。
根据本申请实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,程序运行时执行上述的方法。
根据本申请实施例的另一方面,还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器通过计算机程序执行上述的方法。
本方案可以应用于深度学习技术领域用于进行自然语言处理,在本申请实施例中,采用获取目标文本,利用多模式串匹配模型对目标文本进行字符串匹配,得到第一字符串集合和第二字符串集合,将第一字符串集合中的字符串和第二字符串集合中的字符串按照在目标文本中的位置拼接为多个分片句子,利用多个分片句子的句子向量确定目标文本的文本向量的方式,实现了对文本的向量化表示,以上多个分片句子中包括表达用户真实语义的分片句子,进而避免了产生语义损失,解决了相关技术中的文本表示方法需要对中文文本进行分词,从而带来了语义损失的技术问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是根据本申请实施例的一种基于串向量的文本表示方法的硬件环境的示意图;
图2是根据本申请实施例的一种基于串向量的文本表示方法的流程图;
图3是根据本申请实施例的一种训练向量编码模型的流程图;
图4是根据本申请实施例的一种基于串向量的文本表示装置的示意图;以及,
图5是根据本申请实施例的一种终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例的一方面,提供了一种基于串向量的文本表示方法的实施例。
可选地,在本实施例中,上述一种基于串向量的文本表示方法可以应用于如图1所示的由终端101和服务器103所构成的硬件环境中。如图1所示,服务器103通过网络与终端101进行连接,可用于为终端或终端上安装的客户端提供文本表示服务,可在服务器上或独立于服务器设置数据库,用于为服务器103提供数据存储服务,上述网络包括但不限于:广域网、城域网或局域网,终端101并不限定于PC、手机、平板电脑等。本申请实施例的一种基于串向量的文本表示方法可以由服务器103来执行,也可以由终端101来执行,还可以是由服务器103和终端101共同执行。其中,终端101执行本申请实施例的一种基于串向量的文本表示方法也可以是由安装在其上的客户端来执行。后续以在服务器上执行本申请实施例的一种基于串向量的文本表示方法为例进行说明。
图2是根据本申请实施例的一种基于串向量的文本表示方法的流程图,如图2所示,该方法可以包括以下步骤:
步骤S202,服务器获取目标文本,其中,目标文本为待文本向量化表示的文本;
步骤S204,服务器利用多模式串匹配模型对目标文本进行字符串匹配,得到第一字符串集合和第二字符串集合,其中,第一字符串集合包括多模式串匹配模型在目标文本中匹配到的字符串,第二字符串集合包括目标文本中多模式串匹配模型未匹配到的字符串;
步骤S206,服务器将第一字符串集合中的字符串和第二字符串集合中的字符串按照在目标文本中的位置拼接为多个分片句子;
步骤S208,服务器利用多个分片句子的句子向量确定目标文本的文本向量。
本方案可以但不限于应用于聊天软件、搜索引擎等中对输入的文本进行分析处理。
上述文本向量化表示是指用数值向量来表示文本的语义,以便在计算机中表示语言,并能让计算机程序自动处理。
通过上述步骤S202至步骤S208,服务器实现了对文本的向量化表示,服务器通过字符串匹配和拼接多个分片句子,多个分片句子中包括表达用户真实语义的分片句子,进而避免了产生语义损失,解决了相关技术中的文本表示方法需要对中文文本进行分词,从而带来了语义损失的技术问题。
在步骤S202提供的技术方案中,服务器获取目标文本,目标文本为待文本向量化表示的文本,目标文本包含语种为中文的文本。
在步骤S204提供的技术方案中,为了获取目标文本中所有可能包含的词义,服务器利用多模式串匹配模型对目标文本进行字符串匹配,并保存所有匹配结果,得到第一字符串集合和第二字符串集合,其中,第一字符串集合包括多模式串匹配模型在目标文本中匹配到的字符串,第二字符串集合包括目标文本中多模式串匹配模型未匹配到的字符串。
作为一种可选地实施例,服务器利用多模式串匹配模型对目标文本进行字符串匹配,得到第一字符串集合和第二字符串集合包括:服务器利用多模式串匹配模型从目标文本中识别出中文字符串,并将识别出的中文字符串保存至第一字符串集合;服务器将目标文本中未被识别出中文字符串的文本片段进行拆字处理,将拆字得到的中文字符串保存至第二字符串集合。
例如,目标文本为“今天看到了南京市长江大桥”,服务器利用多模式串匹配模型从目标文本中识别出的多个中文字符串为{今天,南京市,长江,大桥},将这些字符串保存到第一字符串集合中;目标文本中未被识别为字符串的文本片段为{看到了},服务器对{看到了}进行拆字处理,得到{看,到,了}这三个字符串,并将这三个字符串保存到第二字符串集合中。
作为一种可选地实施例,在利用多模式串匹配模型从目标文本中识别出中文字符串的过程中,记录对目标文本中中文字符串的M种划分方式,其中,任意两种划分方式对应的第一字符串集合中存在不同的中文字符串和/或对应的第二字符串集合中存在不同的中文字符串,M为正整数。
例如,目标文本为“今天看到了南京市长江大桥”,可以按照多种方式划分,以其中两种为例进行说明:第一种,{今天/看/到/了/南京/市长/江大桥},在第一字符串集合中的字符串为{今天,南京,市长,江大桥},对应地,在第二字符串集合中的字符串为{看,到,了};第二种,{今天/看/到/了/南京/市/长江大桥},在第一字符串集合中的字符串为{今天,南京,长江大桥},对应地,在第二字符串集合中的字符串为{看,到,了,市};这两种划分方式在第一字符串集合和第二字符串集合中保存的字符串并不相同。
本申请还提供了一种可选实施例,该可选实施例在服务器利用多模式串匹配模型从目标文本中识别出中文字符串之前,完成对多模式串匹配模型训练包括:服务器读取已知词典中的词语;服务器利用已知词典中的词语构建有限状态模式匹配机,以完成对多模式串匹配模型的训练。
可选地,在本实施例中,已知词典包括通用词典和领域词典,服务器采用AC自动机算法(Aho-Corasick算法)作为多模式串匹配算法,并将训练出的多模式串匹配模型记作AC-Auto。
在步骤S206提供的技术方案中,服务器将第一字符串集合中的字符串和第二字符串集合中的字符串按照在目标文本中的位置拼接为多个分片句子。
作为一种可选地实施例,服务器将第一字符串集合中的字符串和第二字符串集合中的字符串按照在目标文本中的位置拼接为多个分片句子包括:服务器获取对目标文本中中文字符串的M种划分方式;服务器按照如下方式确定M种划分方式中每种划分方式对应的分片句子:服务器取出第一字符串集合中按照目标划分方式划分得到的中文字符串和第二字符串集合中按照目标划分方式划分得到的中文字符串,其中,目标划分方式为M种划分方式中当前处理的划分方式;将从第一字符串集合和第二字符串集合中取出的中文字符串按照在目标文本中的位置进行拼接,得到目标划分方式对应的分片句子。
可选地,在本实施例中,拼接字符串的方式是在字符串之间以空格进行间隔。例如,目标文本为“今天看到了南京市长江大桥”,根据其中一种划分方式,服务器拼接的分片句子为{今天看到了南京市长江大桥}。以这种拼接方式对“今天看到了南京市长江大桥”的9种划分方式得到的分片句子进行展示:
第一种:{今天看到了南京市长江大桥},
第二种:{今天看到了南京市长江大桥},
第三种:{今天看到了南京市长江大桥},
第四种:{今天看到了南京市长江大桥},
第五种:{今天看到了南京市长江大桥},
第六种:{今天看到了南京市长江大桥},
第七种:{今天看到了南京市长江大桥},
第八种:{今天看到了南京市长江大桥},
第九种:{今天看到了南京市长江大桥}。
在步骤S208提供的技术方案中,服务器利用多个分片句子的句子向量确定目标文本的文本向量。
作为一种可选地实施例,服务器利用多个分片句子的句子向量确定目标文本的文本向量包括:服务器利用向量编码模型获取每个分片句子的句子向量,其中,向量编码模型是预先训练好的用于确定句子向量的模型;服务器将多个分片句子的句子向量取平均值,得到目标文本的文本向量。
以分片句子{今天看到了南京市长江大桥}为例,说明获取每个分片句子的句子向量的方法:以Vector(content)函数来表示取content的向量,Vector(今天看到了南京市长江大桥)=Vector(今天)+Vector(看)+Vector(到)+Vector(了)+Vector(南京)+Vector(市长)+Vector(江)+Vector(大桥)。
以目标文本“今天看到了南京市长江大桥”为例来说明将多个分片句子的句子向量取平均值,得到目标文本的文本向量的方法:Vector(今天看到了南京市长江大桥)=(Vector(今天看到了南京市长江大桥)+Vector(今天看到了南京市长江大桥)+Vector(今天看到了南京市长江大桥)+Vector(今天看到了南京市长江大桥)+Vector(今天看到了南京市长江大桥)+Vector(今天看到了南京市长江大桥)+Vector(今天看到了南京市长江大桥)+Vector(今天看到了南京市长江大桥)+Vector(今天看到了南京市长江大桥))/9。
本申请还提供了一种可选实施例,该可选实施例在利用向量编码模型获取每个分片句子的句子向量之前,服务器训练向量编码模型包括如下步骤:步骤S302,读取用于训练向量编码模型的语料样本库;步骤S304,利用多模式串匹配模型对语料样本库内的每段文本进行字符串匹配,得到语料样本库内每段文本的第一字符串样本集和第二字符串样本集,其中,第一字符串样本集包括多模式串匹配模型在每段文本中匹配到的字符串,第二字符串样本集包括每段文本中多模式串匹配模型未匹配到的字符串;步骤S306,将语料样本库内每段文本的第一字符串样本集和第二字符串样本集中的字符串按照在文本中的位置拼接,得到语料样本库内每段文本对应的分片句子样本集;步骤S308,根据分片句子样本集中每个分片句子的字符串向量生成分片句子的原始向量;步骤S310,将分片句子样本集中各个分片句子的原始向量输入向量编码模型,以对向量编码模型进行模型训练,其中,模型训练包括将向量编码模型的模型参数调整为目标值,向量编码模型的模型参数为目标值的情况下所输出的所有句子向量的维度值为正整数N,N的值为预先设定的。如图3所示是根据本申请实施例的一种训练向量编码模型的流程图。
可选地,在本实施例中,可以采用word2vec、Glove等算法作为训练向量编码模型的Word embedding算法,Word embedding算法是文本的数值化表示方法,可以将文本中的每个词表示为一个低维实数向量。
本方案通过获取待文本向量表示的目标文本,并使用多模式串匹配模型对获取的待文本向量表示的目标文本进行匹配,从而实现了对目标文本的划分,且不丢失目标文本所包含的真实语义,并通过将匹配结果用串向量表示,从而确定了目标文本的文本向量,进而避免了产生语义损失,解决了相关技术中的文本表示方法需要对中文文本进行分词,从而带来了语义损失的技术问题。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
根据本申请实施例的另一个方面,还提供了一种用于实施上述一种基于串向量的文本表示方法的装置。图4是根据本申请实施例的一种基于串向量的文本表示装置的示意图,如图4所示,该装置可以包括获取模块42、匹配模块44、拼接模块46、表示模块48:
获取模块42,用于获取目标文本,其中,目标文本为待文本向量化表示的文本;
匹配模块44,用于利用多模式串匹配模型对目标文本进行字符串匹配,得到第一字符串集合和第二字符串集合,其中,第一字符串集合包括多模式串匹配模型在目标文本中匹配到的字符串,第二字符串集合包括目标文本中多模式串匹配模型未匹配到的字符串;
拼接模块46,用于将第一字符串集合中的字符串和第二字符串集合中的字符串按照在目标文本中的位置拼接为多个分片句子;
表示模块48,用于利用多个分片句子的句子向量确定目标文本的文本向量。
需要说明的是,该实施例中的获取模块42可以用于执行本申请实施例中的步骤S202,该实施例中的匹配模块44可以用于执行本申请实施例中的步骤S204,该实施例中的拼接模块46可以用于执行本申请实施例中的步骤S206,该实施例中的表示模块48可以用于执行本申请实施例中的步骤S208。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。
通过上述模块,实现了对文本的向量化表示,避免了产生语义损失,解决了相关技术中的文本表示方法需要对中文文本进行分词,从而带来了语义损失的技术问题。
作为一种可选地实施例,表示模块48包括句子向量获取单元、计算单元:句子向量获取单元,用于利用向量编码模型获取每个分片句子的句子向量,其中,向量编码模型是预先训练好的用于确定句子向量的模型;计算单元:用于将多个分片句子的句子向量取平均值,得到目标文本的文本向量。
可选地,获取模块42还用于:读取用于训练向量编码模型的语料样本库;匹配模块44还用于:利用多模式串匹配模型对语料样本库内的每段文本进行字符串匹配,得到语料样本库内每段文本的第一字符串样本集和第二字符串样本集,其中,第一字符串样本集包括多模式串匹配模型在每段文本中匹配到的字符串,第二字符串样本集包括每段文本中多模式串匹配模型未匹配到的字符串;拼接模块46还用于:将语料样本库内每段文本的第一字符串样本集和第二字符串样本集中的字符串按照在语料样本库中的位置拼接,得到语料样本库内每段文本对应的分片句子样本集。
作为一种可选的实施例,上述装置还包括生成模块、输入模块:生成模块,用于根据分片句子样本集中每个分片句子的字符串向量生成分片句子的原始向量;输入模块,用于将分片句子样本集中各个分片句子的原始向量输入向量编码模型,以对向量编码模型进行模型训练,其中,模型训练包括将向量编码模型的模型参数调整为目标值,向量编码模型的模型参数为目标值的情况下所输出的所有句子向量的维度值为正整数N。
作为一种可选的实施例,匹配模块44包括识别单元、拆字单元:识别单元,用于利用多模式串匹配模型从目标文本中识别出中文字符串,并将识别出的中文字符串保存至第一字符串集合;拆字单元,用于将目标文本中未被识别出中文字符串的文本片段进行拆字处理,将拆字得到的中文字符串保存至第二字符串集合。
作为一种可选的实施例,上述装置还包括读取模块、构建模块、训练模块:读取模块,用于读取已知词典中的词语;构建模块,用于利用已知词典中的词语构建有限状态模式匹配机,以完成对多模式串匹配模型的训练。
作为一种可选的实施例,上述装置还包括记录模块:用于记录对目标文本中中文字符串的M种划分方式,其中,任意两种划分方式对应的第一字符串集合中存在不同的中文字符串和/或对应的第二字符串集合中存在不同的中文字符串,M为正整数。
作为一种可选的实施例,拼接模块46包括:划分方式获取单元,用于获取对目标文本中中文字符串的M种划分方式;确定单元,用于按照如下方式确定M种划分方式中每种划分方式对应的分片句子:取出第一字符串集合中按照目标划分方式划分得到的中文字符串和第二字符串集合中按照目标划分方式划分得到的中文字符串,其中,目标划分方式为M种划分方式中当前处理的划分方式;将从第一字符串集合和第二字符串集合中取出的中文字符串按照在目标文本中的位置进行拼接,得到目标划分方式对应的分片句子。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现,其中,硬件环境包括网络环境。
根据本申请实施例的另一个方面,还提供了一种用于实施上述基于串向量的文本表示方法的服务器或终端。
根据本申请实施例的一种终端的结构框图,如图5所示,该终端可以包括:一个或多个(图5中仅示出一个)处理器501、存储器503、以及传输装置505,如图5所示,该终端还可以包括输入输出设备507。
其中,存储器503可用于存储软件程序以及模块,如本申请实施例中的一种基于串向量的文本表示方法和装置对应的程序指令/模块,处理器501通过运行存储在存储器503内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的一种基于串向量的文本表示方法。存储器503可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器503可进一步包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述的传输装置505用于经由一个网络接收或者发送数据,还可以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置505包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置505为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
其中,具体地,存储器503用于存储应用程序。
处理器501可以通过传输装置505调用存储器503存储的应用程序,以执行下述步骤:获取目标文本,其中,目标文本为待文本向量化表示的文本;利用多模式串匹配模型对目标文本进行字符串匹配,得到第一字符串集合和第二字符串集合,其中,第一字符串集合包括多模式串匹配模型在目标文本中匹配到的字符串,第二字符串集合包括目标文本中多模式串匹配模型未匹配到的字符串;将第一字符串集合中的字符串和第二字符串集合中的字符串按照在目标文本中的位置拼接为多个分片句子;利用多个分片句子的句子向量确定目标文本的文本向量。
采用本申请实施例,提供了一种基于串向量的文本表示方案,通过字符串匹配和拼接多个分片句子,实现了对文本的向量化表示,避免了产生语义损失,解决了相关技术中的文本表示方法需要对中文文本进行分词,从而带来了语义损失的技术问题。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本领域普通技术人员可以理解,图5所示的结构仅为示意,终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile InternetDevices,MID)、PAD等终端设备。图5其并不对上述电子设备的结构造成限定。例如,终端还可包括比图5中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图5所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
本申请的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于执行一种基于串向量的文本表示方法的程序代码。
可选地,在本实施例中,上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取目标文本,其中,目标文本为待文本向量化表示的文本;利用多模式串匹配模型对目标文本进行字符串匹配,得到第一字符串集合和第二字符串集合,其中,第一字符串集合包括多模式串匹配模型在目标文本中匹配到的字符串,第二字符串集合包括目标文本中多模式串匹配模型未匹配到的字符串;将第一字符串集合中的字符串和第二字符串集合中的字符串按照在目标文本中的位置拼接为多个分片句子;利用多个分片句子的句子向量确定目标文本的文本向量。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种基于串向量的文本表示方法,其特征在于,包括:
获取目标文本,其中,所述目标文本为待文本向量化表示的文本;
利用多模式串匹配模型对所述目标文本进行字符串匹配,得到第一字符串集合和第二字符串集合,其中,所述第一字符串集合包括所述多模式串匹配模型在所述目标文本中匹配到的字符串,所述第二字符串集合包括所述目标文本中所述多模式串匹配模型未匹配到的字符串;
将所述第一字符串集合中的字符串和所述第二字符串集合中的字符串按照在所述目标文本中的位置拼接为多个分片句子;
利用所述多个分片句子的句子向量确定所述目标文本的文本向量。
2.根据权利要求1所述的方法,其特征在于,利用所述多个分片句子的句子向量确定所述目标文本的文本向量包括:
利用向量编码模型获取每个所述分片句子的句子向量,其中,所述向量编码模型是预先训练好的用于确定句子向量的模型;
将所述多个分片句子的句子向量取平均值,得到所述目标文本的文本向量。
3.根据权利要求2所述的方法,其特征在于,在利用向量编码模型获取每个所述分片句子的句子向量之前,所述方法还包括:
读取用于训练所述向量编码模型的语料样本库;
利用所述多模式串匹配模型对所述语料样本库内的每段文本进行字符串匹配,得到所述语料样本库内每段文本的第一字符串样本集和第二字符串样本集,其中,所述第一字符串样本集包括所述多模式串匹配模型在每段文本中匹配到的字符串,所述第二字符串样本集包括每段文本中所述多模式串匹配模型未匹配到的字符串;
将所述语料样本库内每段文本的第一字符串样本集和第二字符串样本集中的字符串按照在文本中的位置拼接,得到所述语料样本库内每段文本对应的分片句子样本集;
根据所述分片句子样本集中每个分片句子的字符串向量生成分片句子的原始向量;
将所述分片句子样本集中各个分片句子的原始向量输入所述向量编码模型,以对所述向量编码模型进行模型训练,其中,所述模型训练包括将所述向量编码模型的模型参数调整为目标值,所述向量编码模型的模型参数为所述目标值的情况下所输出的所有句子向量的维度值为正整数N。
4.根据权利要求1所述的方法,其特征在于,利用多模式串匹配模型对所述目标文本进行字符串匹配,得到第一字符串集合和第二字符串集合包括:
利用所述多模式串匹配模型从所述目标文本中识别出中文字符串,并将识别出的中文字符串保存至所述第一字符串集合;
将所述目标文本中未被识别出中文字符串的文本片段进行拆字处理,将拆字得到的中文字符串保存至所述第二字符串集合。
5.根据权利要求4所述的方法,其特征在于,在利用所述多模式串匹配模型从所述目标文本中识别出中文字符串之前,所述方法还包括:
读取已知词典中的词语;
利用所述已知词典中的词语构建有限状态模式匹配机,以完成对所述多模式串匹配模型的训练。
6.根据权利要求4所述的方法,其特征在于,在利用所述多模式串匹配模型从所述目标文本中识别出中文字符串的过程中,所述方法还包括:
记录对所述目标文本中中文字符串的M种划分方式,其中,任意两种划分方式对应的所述第一字符串集合中存在不同的中文字符串和/或对应的所述第二字符串集合中存在不同的中文字符串,M为正整数。
7.根据权利要求6所述的方法,其特征在于,将所述第一字符串集合中的字符串和所述第二字符串集合中的字符串按照在所述目标文本中的位置拼接为多个分片句子包括:
获取对所述目标文本中中文字符串的M种划分方式;
按照如下方式确定所述M种划分方式中每种划分方式对应的分片句子:取出所述第一字符串集合中按照目标划分方式划分得到的中文字符串和所述第二字符串集合中按照所述目标划分方式划分得到的中文字符串,其中,所述目标划分方式为所述M种划分方式中当前处理的划分方式;将从所述第一字符串集合和所述第二字符串集合中取出的中文字符串按照在所述目标文本中的位置进行拼接,得到所述目标划分方式对应的分片句子。
8.一种基于串向量的文本表示装置,其特征在于,所述装置包括:
获取模块,用于获取目标文本,其中,所述目标文本为待文本向量化表示的文本;
匹配模块,用于利用多模式串匹配模型对所述目标文本进行字符串匹配,得到第一字符串集合和第二字符串集合,其中,所述第一字符串集合包括所述多模式串匹配模型在所述目标文本中匹配到的字符串,所述第二字符串集合包括所述目标文本中所述多模式串匹配模型未匹配到的字符串;
拼接模块,用于将所述第一字符串集合中的字符串和所述第二字符串集合中的字符串按照在所述目标文本中的位置拼接为多个分片句子;
表示模块,用于利用所述多个分片句子的句子向量确定所述目标文本的文本向量。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器通过所述计算机程序执行上述权利要求1-7任一项中所述的方法。
10.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1-7任一项中所述的方法。
CN202110565711.3A 2021-05-24 2021-05-24 基于串向量的文本表示方法和装置、电子设备、存储介质 Active CN113342930B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110565711.3A CN113342930B (zh) 2021-05-24 2021-05-24 基于串向量的文本表示方法和装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110565711.3A CN113342930B (zh) 2021-05-24 2021-05-24 基于串向量的文本表示方法和装置、电子设备、存储介质

Publications (2)

Publication Number Publication Date
CN113342930A true CN113342930A (zh) 2021-09-03
CN113342930B CN113342930B (zh) 2024-03-08

Family

ID=77471052

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110565711.3A Active CN113342930B (zh) 2021-05-24 2021-05-24 基于串向量的文本表示方法和装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN113342930B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109213844A (zh) * 2018-08-13 2019-01-15 腾讯科技(深圳)有限公司 一种文本处理方法、装置以及相关设备
CN110069631A (zh) * 2019-04-08 2019-07-30 腾讯科技(深圳)有限公司 一种文本处理方法、装置以及相关设备
US20200081972A1 (en) * 2018-09-11 2020-03-12 Dell Products L.P. Method of Optimized Parsing Unstructured and Garbled Texts Lacking Whitespaces
CN111666758A (zh) * 2020-04-15 2020-09-15 中国科学院深圳先进技术研究院 中文分词方法、训练设备以及计算机可读存储介质
CN111797594A (zh) * 2020-06-29 2020-10-20 深圳壹账通智能科技有限公司 基于人工智能的字符串处理方法及相关设备
CN112084746A (zh) * 2020-09-11 2020-12-15 广东电网有限责任公司 一种实体识别方法、系统、存储介质及设备
CN112231471A (zh) * 2020-09-04 2021-01-15 大箴(杭州)科技有限公司 文本处理方法及装置、计算机设备、存储介质
CN112632997A (zh) * 2020-12-14 2021-04-09 河北工程大学 基于BERT和Word2Vec向量融合的中文实体识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109213844A (zh) * 2018-08-13 2019-01-15 腾讯科技(深圳)有限公司 一种文本处理方法、装置以及相关设备
US20200081972A1 (en) * 2018-09-11 2020-03-12 Dell Products L.P. Method of Optimized Parsing Unstructured and Garbled Texts Lacking Whitespaces
CN110069631A (zh) * 2019-04-08 2019-07-30 腾讯科技(深圳)有限公司 一种文本处理方法、装置以及相关设备
CN111666758A (zh) * 2020-04-15 2020-09-15 中国科学院深圳先进技术研究院 中文分词方法、训练设备以及计算机可读存储介质
CN111797594A (zh) * 2020-06-29 2020-10-20 深圳壹账通智能科技有限公司 基于人工智能的字符串处理方法及相关设备
CN112231471A (zh) * 2020-09-04 2021-01-15 大箴(杭州)科技有限公司 文本处理方法及装置、计算机设备、存储介质
CN112084746A (zh) * 2020-09-11 2020-12-15 广东电网有限责任公司 一种实体识别方法、系统、存储介质及设备
CN112632997A (zh) * 2020-12-14 2021-04-09 河北工程大学 基于BERT和Word2Vec向量融合的中文实体识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
于长永等: "一种带有长度和位置约束的字符串索引方法", 东北大学学报 ( 自然科学版), vol. 39, no. 7, pages 959 - 963 *

Also Published As

Publication number Publication date
CN113342930B (zh) 2024-03-08

Similar Documents

Publication Publication Date Title
US11151177B2 (en) Search method and apparatus based on artificial intelligence
CN107273503B (zh) 用于生成同语言平行文本的方法和装置
CN111428493A (zh) 实体关系获取方法、装置、设备及存储介质
CN109271493A (zh) 一种语言文本处理方法、装置和存储介质
CN108319888B (zh) 视频类型的识别方法及装置、计算机终端
CN111858843B (zh) 一种文本分类方法及装置
CN113283238B (zh) 文本数据处理的方法和装置、电子设备和存储介质
CN112287069A (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN111783471B (zh) 自然语言的语义识别方法、装置、设备及存储介质
CN110348012B (zh) 确定目标字符的方法、装置、存储介质及电子装置
CN110610180A (zh) 错别字词识别集的生成方法、装置、设备及存储介质
CN111695337A (zh) 智能面试中专业术语的提取方法、装置、设备及介质
CN112085091B (zh) 基于人工智能的短文本匹配方法、装置、设备及存储介质
CN111950303A (zh) 医疗文本翻译方法、装置及存储介质
CN114386410A (zh) 预训练模型的训练方法和文本处理方法
CN113486173A (zh) 文本标注神经网络模型及其标注方法
CN113657105A (zh) 基于词汇增强的医学实体抽取方法、装置、设备及介质
CN114626380A (zh) 实体识别的方法和装置、电子设备和存储介质
CN112417874A (zh) 命名实体的识别方法和装置、存储介质、电子装置
CN115861606B (zh) 一种针对长尾分布文档的分类方法、装置及存储介质
CN111090992A (zh) 一种文本预处理方法、装置及存储介质
CN113342930B (zh) 基于串向量的文本表示方法和装置、电子设备、存储介质
CN113342932B (zh) 目标词向量的确定方法、装置、存储介质和电子装置
CN112364649B (zh) 命名实体的识别方法、装置、计算机设备及存储介质
CN115757764A (zh) 一种信息识别方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant