CN115600580B - 文本匹配方法、装置、设备及存储介质 - Google Patents

文本匹配方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115600580B
CN115600580B CN202211504116.XA CN202211504116A CN115600580B CN 115600580 B CN115600580 B CN 115600580B CN 202211504116 A CN202211504116 A CN 202211504116A CN 115600580 B CN115600580 B CN 115600580B
Authority
CN
China
Prior art keywords
text
target
sequence
predicted
numerical value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211504116.XA
Other languages
English (en)
Other versions
CN115600580A (zh
Inventor
李舟军
汪宝瑞
陈小明
肖武魁
刘俊杰
覃维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Intelligent Strong Technology Co ltd
Original Assignee
Shenzhen Intelligent Strong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Intelligent Strong Technology Co ltd filed Critical Shenzhen Intelligent Strong Technology Co ltd
Priority to CN202211504116.XA priority Critical patent/CN115600580B/zh
Publication of CN115600580A publication Critical patent/CN115600580A/zh
Application granted granted Critical
Publication of CN115600580B publication Critical patent/CN115600580B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本匹配方法、装置、设备及存储介质,该方法包括:确定待预测文本中文本词组与目标数值之间的距离序列;基于预设词表将待预测文本转换为标号序列;根据预设语言编码模型对距离序列和标号序列进行编码,获得文本编码信息;根据预设语言编码模型对所述文本编码信息进行预测,并根据预测结果获得与所述目标数值匹配的目标文本。本发明通过待预测文本获得距离序列和标号序列,根据预设语言编码模型对距离序列和标号序列进行处理,获得与目标数值匹配的目标文本,从而解决了无法在复杂和冗余的非结构化文本中获取与数值向对应的文本信息。

Description

文本匹配方法、装置、设备及存储介质
技术领域
本发明涉及信息匹配技术领域,尤其涉及一种文本匹配方法、装置、设备及存储介质。
背景技术
信息抽取是指从半结构化或非结构化文本中抽取有价值的信息,并将其转变为结构化信息的过程。目前,信息抽取主要包括命名实体识别、关系抽取以及事件抽取等几个方面的研究。数值信息抽取是信息抽取的一个重要的研究分支,它针对的是文本中特有的数值信息。
数值信息是一类特定的信息表达形式。从表达形式来看,数值信息大多以“数字”表达为其构成主体,而面对海量、类型多变的文档,如何依托于上下文的,既获取数字表达、数据单位,又通过对包含有数值信息的客观事实描述语句进行识别,获取其中一些关键信息,在抽取结果中呈现出与数值实体之间的逻辑关系,从而产出有用的知识成为亟须解决的问题。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种文本匹配方法、装置、设备及存储介质,旨在解决如何从复杂的文档中获取与数值实体之间存在逻辑关系的文本信息技术问题。
为实现上述目的,本发明提供一种文本匹配方法,所述文本匹配方法包括以下步骤:
确定待预测文本中文本词组与目标数值之间的距离序列;
基于预设词表将待预测文本转换为标号序列;
根据预设语言编码模型对所述距离序列和所述标号序列进行编码,获得文本编码信息;
根据所述预设语言编码模型对所述文本编码信息进行预测,并根据预测结果获得与所述目标数值匹配的目标文本。
可选地,所述根据预设语言编码模型对所述距离序列和所述标号序列进行编码,获得文本编码信息的步骤,包括:
根据预设语言编码模型对所述标号序列进行编码,获得待预测文本的词向量矩阵;
根据所述预设语言编码模型将所述距离序列转换成嵌入向量矩阵;
根据所述词向量矩阵和所述嵌入向量矩阵,获得文本编码信息。
可选地,所述根据所述预设语言编码模型对所述文本编码信息进行预测,并根据预测结果获得与所述目标数值匹配的目标文本的步骤,包括:
根据所述预设语言编码模型对所述文本编码信息进行预测,获得所述文本编码信息中待匹配文本的置信度;
从所述待匹配文本的置信度中选取置信度最高的文本,所述置信度最高的文本为目标文本。
可选地,所述从所述待匹配文本的置信度中选取置信度最高的文本,所述置信度最高的文本为目标文本的步骤之后,还包括:
比较目标文本与所述预设词表中所有文本之间的相似度;
根据比较结果将所述目标文本映射到所述预设词表。
可选地,所述比较结果为相似值;
根据比较结果将所述目标文本映射到所述预设词表的步骤,包括:
在相似值大于预设相似阈值时,将所述目标文本映射到所述预设词表。
可选地,所述确定待预测文本中文本词组与目标数值之间的距离序列的步骤之前,还包括:
根据正则表达式获取文本中所有的目标数值;
根据所述文本和所述目标数值确定待预测文本。
可选地,所述根据所述文本和所述目标数值确定待预测文本的步骤,包括:
将所述目标数值转换成目标字符;
根据所述文本和所述目标字符确定待预测文本。
此外,为实现上述目的,本发明还提出一种文本匹配装置,所述文本匹配装置包括:序列确定模块、信息获取模块及文本匹配模块;
所述序列确定模块,用于确定待预测文本中文本词组与目标数值之间的距离序列;
所述序列确定模块,还用于基于预设词表将待预测文本转换为标号序列;
所述信息获取模块,用于根据预设语言编码模型对所述距离序列和所述标号序列进行编码,获得文本编码信息;
所述文本匹配模块,用于根据所述预设语言编码模型对所述文本编码信息进行预测,并根据预测结果获得与所述目标数值匹配的目标文本。
此外,为实现上述目的,本发明还提出一种文本匹配设备,所述文本匹配设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行文本匹配程序,所述文本匹配程序配置为实现如上文所述的文本匹配方法。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有文本匹配程序,所述文本匹配程序被处理器执行时实现如上文所述的文本匹配方法。
本发明公开了一种文本匹配方法、装置、设备及存储介质,该方法包括:确定待预测文本中文本词组与目标数值之间的距离序列;基于预设词表将待预测文本转换为标号序列;根据预设语言编码模型对距离序列和标号序列进行编码,获得文本编码信息;根据预设语言编码模型对所述文本编码信息进行预测,并根据预测结果获得与所述目标数值匹配的目标文本。本发明通过待预测文本获得距离序列和标号序列,根据预设语言编码模型对距离序列和标号序列进行处理,获得与目标数值匹配的目标文本,从而解决了无法在复杂和冗余的非结构化文本中获取与数值向对应的文本信息。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的文本匹配设备的结构示意图;
图2为本发明文本匹配方法第一实施例的流程示意图;
图3为本发明文本匹配方法第二实施例的流程示意图;
图4为本发明文本匹配方法第三实施例的流程示意图;
图5为本发明文本匹配装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的文本匹配设备结构示意图。
如图1所示,该文本匹配设备可以包括:处理器1001,例如中央处理器(CentralProcessing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display),可选用户接口1003还可以包括标准的有线接口、无线接口,对于用户接口1003的有线接口在本发明中可为USB接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity,Wi-Fi)接口)。存储器1005可以是高速的随机存取存储器(Random Access Memory,RAM),也可以是稳定的存储器(Non-volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对文本匹配设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,认定为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及文本匹配程序。
在图1所示的文本匹配设备中,网络接口1004主要用于连接后台服务器,与所述后台服务器进行数据通信;用户接口1003主要用于连接用户设备;所述文本匹配设备通过处理器1001调用存储器1005中存储的文本匹配程序,并执行本发明实施例提供的文本匹配方法。
基于上述硬件结构,提出本发明文本匹配方法的实施例。
参照图2,图2为本发明文本匹配方法第一实施例的流程示意图,提出本发明文本匹配方法第一实施例。
步骤S10:确定待预测文本中文本词组与目标数值之间的距离序列。
需要说明的是,本实施例的执行主体可以是具有数据处理、网络通信以及程序运行功能的计算机服务设备,例如,文本匹配设备等,或者是其他能够实现相同或相似功能的电子设备,本实施例对此不加限制。
应理解的是,信息抽取是指从半结构化或非结构化文本中抽取有价值的信息,并将其转变为结构化信息的过程。目前,信息抽取主要包括命名实体识别、关系抽取以及事件抽取等几个方面的研究。数值信息抽取是信息抽取的一个重要的研究分支,它针对的是文本中特有的数值信息。数值信息是一类特定的信息表达形式。从表达形式来看,数值信息大多以“数字”表达为其构成主体,其价值是依托于上下文的,既需要获取数字表达、数据单位,也需要对包含有数值信息的客观事实描述语句进行识别,获取其中一些关键信息,在抽取结果中呈现出与数值实体之间的逻辑关系,从而产出有用的知识。具体来说,以句子“张三公司直接债务余额为290.98亿元”为例,其中的数值实体“290.98亿元”是不具备完整意义的,需要获取其对应的指标“直接债务余额”,以二元组的形式给出,才能作为一条可用信息参与后续的进一步处理。
而面对文档海量、类型多变的问题时,文档来源包括银行、保险机构、投资机构等不同类型机构制作的各类报告、合同、文书、卷宗,不同类型文档存在表达与描述倾向上的特点。因此,如何从复杂、多源和冗余的非结构文本数据中准确有效地提取出有价值、高质量、结构化的信息成为自然语言处理中亟须解决的问题。
在现有技术中,在使用机器学习或深度学习处理自然语言处理问题时,首先需要将文本转化成数值才能输入神经网络模型。并且,为了保持句子中不同的字词在语义上的关联,就需要引入词向量,即将每个词语编码成一个向量,使得意义接近的词的向量相似度较大,意义相反的词的向量相似度较小。如何完成词向量的编码直接影响到后续任务对文本语义的理解和处理准确率。最早使用的是静态词向量word2vec,即使用预先训练好的词表,将经过分词的句子与词表进行比对,直接通过查表的方式得到每个词的词向量。这种方法的优点是效率极高,可以不经过模型就完成词向量的编码;但是无法处理一词多义的问题,不同语境下具有不同含义的同一个词语,会被编码成同一个向量,会一定程度上影响语义理解能力。之后使用动态词向量模型ELMO,该模型基于Bi-LSTM(双向长短期记忆网络),进行词向量编码时会综合考量词语前后两侧的其他相关语句的语义,很大程度上解决了一词多义的问题;但是Bi-LSTM模型考量的上下文范围有限,对文本上跨度较大的关联语义无法较好地提取。
命名实体识别(Named Entity Recognition,简称NER),是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、或其他专有名词等。从自然语言处理的流程来看,NER可以看作词法分析中未登录词识别的一种,是未登录词中数量最多、识别难度最大、对分词效果影响最大问题。
以下是几类处理方法及其优缺点:
基于词典和规则的方法:可以在特定场景下的数据集上取得不错的表现,但规则的制定始终需要大量的人力成本,而且系统的移植性差的特点也限制了该方法的广泛应用。
基于机器学习的方法:基于大规模语料数据的统计方法,依赖于人工提取文本特征,训练开销大。
基于深度学习的方法:该方法相较之前方法都有了显著的提升,该方法带来的最大突破是抛弃了人为特征工程的工作,不依赖于某一领域特定的领域知识就可以取得比较好的表现,模型的表现上具有很强的泛化性。
关系分类(Relation Classification),是指对一段文本及其中的两个抽取完成的实体,判断两个属于何种关系。对本任务而言,是对文本中的指标和数值实体,进行二分类,判断二者是否匹配。
其处理方法主要包括:
基于特征工程的方法:通过人工书写规则,基于上下文语境、实体位置等其他信息进行判别。
基于神经网络的方法:在处理句子语义表示时,使用显式或隐式的方法对需要判断的实体进行标记,再在完成编码后,提取这部分标记的结果进行判别。
可以理解的是,因为文档海量、类型多变,文档来源包括银行、保险机构、投资机构等不同类型机构制作的各类报告、合同、文书、卷宗,不同类型文档存在表达与描述倾向上的特点;数值信息的相关表达方式复杂,难以使用规则等方式进行有效抽取,局限性强、可扩展性差,难以维护、编写繁琐,一旦文本类型发生变更,就需要重新编写规则模板;对于一段金融领域的文本,一般只在第一次涉及某个指标的时候,描述其数值,此后的分析和介绍则出现该指标的名称,因而必然出现描述指标远多于具体数值的情况。这就导致命名实体识别的过程中获取大量无关指标实体,产生过多备选实体对,严重影响筛选的效率和准确率;并且,如果筛选后某个数值实体对应多个指标,则会对进一步的判断产生冲突和干扰,系统整体鲁棒性会收到很大影响,所以,上述的方案都无法解决这些问题。
为了克服上述缺陷,本实施例确定待预测文本中文本词组和目标数值之间的距离序列,并将待预测文本转换成标号序列,从而知道待预测文本中每个字词与目标数值之间的距离,将距离序列和标号序列连接起来,通过预设语言编码模型进行处理,利于预设语言编码模型预测出与目标数值匹配的目标文本。
可以理解的是,待预测文本可以是任意的文本,可以是报告、合同或文书等,本实施例对比不加以限制。
需要说明的是,确定待预测文本中的词组和目标数值之间的距离序列,即计算待预测文本中每个词距离目标数值的距离,是为了帮助预设语言编码模型提取隐藏信息。
进一步地,为了排除匹配的准确率的干扰,因此本实施例步骤S10之前可包括:
根据正则表达式获取文本中所有的目标数值;
根据所述文本和所述目标数值确定待预测文本。
需要说明的是,由于数值实体包含字符串,具有高度的语言表达特性,因此可以通过正则表达式对文本中的数值进行提取,例如,对文本中包含金额、百分比或面积等数值进行提取,本实施例对采用何种正则表达式的方式提取目标数值不作任何限制。
需要说明的是,将文本中所有的数值提取后,得到数值的集合,将数值的集合和文本作为待预测文本。
可以理解的是,目标数值则是通过正则表达式提取出来的数值集合。
进一步地,为了减少预设语言编码模型的干扰,因此本实施例步骤S10之前还可包括:
将所述目标数值转换成目标字符;
根据所述文本和所述目标字符确定待预测文本。
需要说明的是,数值的具体取值是没有任何意义的,将数值替换成特殊字符,例如“$”,可以帮助预设语言编码模型减少干扰,能够更明确的捕捉数值。
步骤S20:基于预设词表将待预测文本转换为标号序列。
需要说明的是,通过预设词表将待预测文本转换成对应的token_id序列,并且为了明确区分上下文和目标数值进一步添加token_type_id。
可以理解的是,由于预设语言编码模型无法识别文字,因此需要将文字转换成数字,即转换成token_id序列。
可以理解的是,预设词表可以是一个切分后的字符对应一个id编号的集合,预设词表是与预设语言编码模型相对应的,选取不同的预设语言编码模型会对应选取不同的预设词表。
步骤S30:根据预设语言编码模型对所述距离序列和所述标号序列进行编码,获得文本编码信息。
需要说明的是,预设语言编码模型为BERT模型,目前,业界和学术界最先进的词向量编码技术是BERT模型,它在2018年由Google提出并公开,使用了基于Transformer的模型结构,词向量编码时会完整考量整个句子的所有词语,能够充分地获取更多的语义信息;其次,该模型参数量庞大,经由Google以及后续其他公司实验室在巨量语料上的预训练,原始就具有很强的泛用性,当处理具体任务时可以在特定语料上进行参数调整(finetune),获得更强的针对性。
需要说明的是,根据预设语言编码模型对标号序列进行编码,能得到词向量矩阵。
需要说明的是,距离序列通过预设语言编码模型的嵌入表示后,能得到每个词语的附加距离信息,即得到每个词语距离目标数值的距离信息。
可以理解的是,在通过预设语言编码模型对标号序列进行编码和对距离序列的嵌入表后,将获得的词向量矩阵与词语附加距离信息连接在一起,得到完整的文本编码信息,将完整的文本编码信息传输至下游网络进行预测。
步骤S40:根据所述预设语言编码模型对所述文本编码信息进行预测,并根据预测结果获得与所述目标数值匹配的目标文本。
需要说明的是,通过预设语言编码模型的下游网络对文本编码信息进行预测,得到预测结果即为目标文本的首尾向量。
需要说明的是,根据目标文本的首尾向量选取置信度最高的文本,置信度最高的文本即为与目标数字匹配的目标文本。
可以理解的是,对文本编码信息进行预测是通过下游网络进行预测,即可以是通过全连接层进行预测。
本实施例通过确定待预测文本中文本词组与目标数值之间的距离序列;基于预设词表将待预测文本转换为标号序列;根据预设语言编码模型对距离序列和标号序列进行编码,获得文本编码信息;根据预设语言编码模型对所述文本编码信息进行预测,并根据预测结果获得与所述目标数值匹配的目标文本。本发明通过待预测文本获得距离序列和标号序列,根据预设语言编码模型对距离序列和标号序列进行处理,获得与目标数值匹配的目标文本,从而解决了无法在复杂和冗余的非结构化文本中获取与数值向对应的文本信息。
参照图3,图3为本发明文本匹配方法第二实施例的流程示意图,基于上述图2所示的第一实施例,提出本发明文本匹配方法的第二实施例。
在第二实施例中,所述步骤S30,包括:
步骤S301:根据预设语言编码模型对所述标号序列进行编码,获得待预测文本的词向量矩阵。
可以理解的是,生成词向量矩阵需要先下载得到原始参数,原始参数是由Google等大型企业或研究所在大规模语料上训练得到的,需要将原始参数在本特定任务的数据集上进行针对性的参数调整,从而得到可用的预训练语言模型参数,并用于生成待预测文本的词向量矩阵。
步骤S302:根据所述预设语言编码模型将所述距离序列转换成嵌入向量矩阵。
可以理解的是,将距离序列通过embedding嵌入每个词到目标数值的距离,并通过大量网络对其进行学习。
可以理解的是,通过距离序列可以对预测出与目标数值匹配的目标文本的区间结果更加准确。
步骤S303:根据所述词向量矩阵和所述嵌入向量矩阵,获得文本编码信息。
可以理解的是,将词向量矩阵和嵌入向量矩阵连接到一起,得到完整的文本编码信息,再将文本编码信息送入到下游网络进行预测,获取目标文本的首尾向量。
本实施例根据预设语言编码模型对所述标号序列进行编码,获得待预测文本的词向量矩阵;根据所述预设语言编码模型将所述距离序列转换成嵌入向量矩阵;根据所述词向量矩阵和所述嵌入向量矩阵,获得文本编码信息。本实施例通过预设语言编码模型对标号序列和距离序列进行处理,获得词向量矩阵和嵌入向量矩阵,通过连接词向量矩阵和嵌入向量矩阵可以获得文本编码信息,将文本编码信息传入到下游网络预测目标文本的位置,通过利用预设语言编码特性,根据上下文,处理不同语境下存在一词多义的情况,将同样的词编码成不同的向量,从而提高了匹配的精确度。
参照图4,图4为本发明文本匹配方法第三实施例的流程示意图,基于上述图2所示的第一实施例,提出本发明文本匹配方法的第三实施例。
在第三实施例中,所述步骤S40,还包括:
步骤S401:根据所述预设语言编码模型对所述文本编码信息进行预测,获得所述文本编码信息中待匹配文本的置信度。
需要说明的是,对文本编码信息进行预测是将文本编码信息送到下游网络进行预测,即在预设语言编码模型中接入全连接层,在全连接层中对文本编码信息进行预测。
需要说明的是,根据预测结果,可以得到每个向量的首尾位置的置信度,例如,某一个文本片段作为预测目标的置信度就是其首位置的置信度和尾位置的置信度。
需要说明的是,预测结果可以是目标文本的首尾向量,根据目标文本的首尾向量确定每个向量的首尾位置的置信度。
步骤S402:从所述待匹配文本的置信度中选取置信度最高的文本,所述置信度最高的文本为目标文本。
可以理解的是,置信度最高代表与目标数值匹配度最高,因此将置信度最高的文本作为目标文本,即与目标数值相匹配的文本。
进一步地,为了便于对类似语义的词进行管理和使用,因此本实施例步骤S402可包括:
比较目标文本与所述预设词表中所有文本之间的相似度;
根据比较结果将所述目标文本映射到所述预设词表。
可以理解的是,比较目标文本与所述预设词表中所有文本之间的相似度时使用字符级F1-score来衡量。
在具体实现中,设目标文本的长度为,预设词表的文本的长度为,两者最大公共子序列的长度为L,记精确率,召回率,则有
可以理解的是,通过计算出来的结果能很好的衡量其二者之间的相似度,选取相似度最高的预设词表的文本进行映射。
进一步地,为了防止无关的预设词表的文本进行映射,因此本实施例步骤S402还可包括:
在相似值大于预设相似阈值时,将所述目标文本映射到所述预设词表。
可以理解的是,相似值即为比较结果,在比较结果大于预设相似阈值时,将所述目标文本映射到所述预设词表。
应理解的是,预设相似阈值可以由用户自己定义,通过设置预设相似阈值可以防止无关的预设词表的文本进行映射,例如,将预设相似阈值设置为0.6,只有相似值高于0.6才能进行映射。
本实施例根据所述预设语言编码模型对所述文本编码信息进行预测,获得所述文本编码信息中待匹配文本的置信度;从所述待匹配文本的置信度中选取置信度最高的文本,所述置信度最高的文本为目标文本。本实施例通过预测出目标文本首尾位置的向量,再从目标文本首尾位置的向量区间内确定置信度最高的文本作为目标文本,从而防止匹配出的多个目标文本对应单个目标数值的情况,提高了匹配的精确度。
此外,参照图5,本发明实施例还提出一种文本匹配装置,所述文本匹配装置包括:序列确定模块10、信息获取模块20及文本匹配模块30;
所述序列确定模块10,用于确定待预测文本中文本词组与目标数值之间的距离序列;
所述序列确定模块10,还用于基于预设词表将待预测文本转换为标号序列;
所述信息获取模块20,用于根据预设语言编码模型对所述距离序列和所述标号序列进行编码,获得文本编码信息;
所述文本匹配模块30,用于根据所述预设语言编码模型对所述文本编码信息进行预测,并根据预测结果获得与所述目标数值匹配的目标文本。
本实施例通过确定待预测文本中文本词组与目标数值之间的距离序列;基于预设词表将待预测文本转换为标号序列;根据预设语言编码模型对距离序列和标号序列进行编码,获得文本编码信息;根据预设语言编码模型对所述文本编码信息进行预测,并根据预测结果获得与所述目标数值匹配的目标文本。本发明通过待预测文本获得距离序列和标号序列,根据预设语言编码模型对距离序列和标号序列进行处理,获得与目标数值匹配的目标文本,从而解决了无法在复杂和冗余的非结构化文本中获取与数值向对应的文本信息。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有文本匹配程序,所述文本匹配程序被处理器执行时实现如上文所述的文本匹配方法。
基于本发明上述文本匹配装置第一实施例,提出本发明文本匹配装置的第二实施例。
在本实施例中,所述信息获取模块20,用于根据预设语言编码模型对所述标号序列进行编码,获得待预测文本的词向量矩阵。
进一步地,所述信息获取模块20,还用于根据所述预设语言编码模型将所述距离序列转换成嵌入向量矩阵。
进一步地,所述信息获取模块20,还用于根据所述词向量矩阵和所述嵌入向量矩阵,获得文本编码信息。
进一步地,所述信息获取模块20,还用于根据所述预设语言编码模型对所述文本编码信息进行预测,获得所述文本编码信息中待匹配文本的置信度。
进一步地,所述信息获取模块20,还用于从所述待匹配文本的置信度中选取置信度最高的文本,所述置信度最高的文本为目标文本。
进一步地,所述信息获取模块20,还用于比较目标文本与所述预设词表中所有文本之间的相似度。
进一步地,所述信息获取模块20,还用于根据比较结果将所述目标文本映射到所述预设词表。
进一步地,所述信息获取模块20,还用于在相似值大于预设相似阈值时,将所述目标文本映射到所述预设词表。
进一步地,所述序列确定模块10之前,还用于根据正则表达式获取文本中所有的目标数值。
进一步地,所述序列确定模块10之前,还用于根据所述文本和所述目标数值确定待预测文本。
进一步地,所述序列确定模块10之前,还用于将所述目标数值转换成目标字符。
进一步地,所述序列确定模块10之前,还用于根据所述文本和所述目标字符确定待预测文本。
本发明所述文本匹配装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器镜像(Read Only Memory image,ROM)/随机存取存储器(Random AccessMemory,RAM)、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (6)

1.一种文本匹配方法,其特征在于,所述文本匹配方法包括以下步骤:
确定待预测文本中文本词组与目标数值之间的距离序列,所述距离序列为所述待预测文本中各文本词组与所述目标数值的距离所组成的序列;
基于预设词表将待预测文本转换为标号序列,所述标号序列包括token_id序列和用来区分所述待预测文本中上下文本与所述目标数值之间的token_type_id序列;
根据预设语言编码模型对所述距离序列和所述标号序列进行编码,获得文本编码信息;
根据所述预设语言编码模型对所述文本编码信息进行预测,并根据预测结果获得与所述目标数值匹配的目标文本;
进一步地,所述根据预设语言编码模型对所述距离序列和所述标号序列进行编码,获得文本编码信息的步骤,包括:
根据预设语言编码模型对所述标号序列进行编码,获得待预测文本的词向量矩阵;
根据所述预设语言编码模型将所述距离序列转换成嵌入向量矩阵;
根据所述词向量矩阵和所述嵌入向量矩阵,获得文本编码信息;
进一步地,所述根据所述预设语言编码模型对所述文本编码信息进行预测,并根据预测结果获得与所述目标数值匹配的目标文本的步骤,包括:
根据所述预设语言编码模型对所述文本编码信息进行预测,获得所述文本编码信息中待匹配文本的置信度,所述待匹配文本的置信度包括所述待匹配文本中各文本向量的首尾位置的置信度;
从所述待匹配文本的置信度中选取置信度最高的文本,所述置信度最高的文本为目标文本;
进一步地,所述确定待预测文本中文本词组与目标数值之间的距离序列的步骤之前,还包括:
根据正则表达式获取文本中所有的目标数值;
根据所述文本和所述目标数值确定待预测文本;
进一步地,所述根据所述文本和所述目标数值确定待预测文本的步骤,包括:
将所述目标数值转换成目标字符;
根据所述文本和所述目标字符确定待预测文本。
2.如权利要求1所述的文本匹配方法,其特征在于,所述从所述待匹配文本的置信度中选取置信度最高的文本,所述置信度最高的文本为目标文本的步骤之后,还包括:
比较目标文本与所述预设词表中所有文本之间的相似度;
根据比较结果将所述目标文本映射到所述预设词表。
3.如权利要求2所述的文本匹配方法,其特征在于,所述比较结果为相似值;
根据比较结果将所述目标文本映射到所述预设词表的步骤,包括:
在相似值大于预设相似阈值时,将所述目标文本映射到所述预设词表。
4.一种文本匹配装置,其特征在于,所述文本匹配装置包括:序列确定模块、信息获取模块及文本匹配模块;
所述序列确定模块,用于确定待预测文本中文本词组与目标数值之间的距离序列,所述距离序列为所述待预测文本中各文本词组与所述目标数值的距离所组成的序列;
所述序列确定模块,还用于基于预设词表将待预测文本转换为标号序列,所述标号序列包括token_id序列和用来区分所述待预测文本中上下文本与所述目标数值之间的token_type_id序列;
所述信息获取模块,用于根据预设语言编码模型对所述距离序列和所述标号序列进行编码,获得文本编码信息;
所述文本匹配模块,用于根据所述预设语言编码模型对所述文本编码信息进行预测,并根据预测结果获得与所述目标数值匹配的目标文本;
所述所述信息获取模块,还用于根据预设语言编码模型对所述标号序列进行编码,获得待预测文本的词向量矩阵;
根据所述预设语言编码模型将所述距离序列转换成嵌入向量矩阵;
根据所述词向量矩阵和所述嵌入向量矩阵,获得文本编码信息;
所述文本匹配模块,还用于根据所述预设语言编码模型对所述文本编码信息进行预测,获得所述文本编码信息中待匹配文本的置信度,所述待匹配文本的置信度包括所述待匹配文本中各文本向量的首尾位置的置信度;
从所述待匹配文本的置信度中选取置信度最高的文本,所述置信度最高的文本为目标文本;
所述所述序列确定模块,还用于根据正则表达式获取文本中所有的目标数值;
根据所述文本和所述目标数值确定待预测文本;
所述所述序列确定模块,还用于将所述目标数值转换成目标字符;
根据所述文本和所述目标字符确定待预测文本。
5.一种计算机设备,其特征在于,所述计算机设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本匹配程序,所述文本匹配程序被所述处理器执行时实现如权利要求1至3中任一项所述的文本匹配方法的步骤。
6.一种存储介质,其特征在于,所述存储介质上存储有文本匹配程序,所述文本匹配程序被处理器执行时实现如权利要求1至3中任一项所述的文本匹配方法的步骤。
CN202211504116.XA 2022-11-29 2022-11-29 文本匹配方法、装置、设备及存储介质 Active CN115600580B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211504116.XA CN115600580B (zh) 2022-11-29 2022-11-29 文本匹配方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211504116.XA CN115600580B (zh) 2022-11-29 2022-11-29 文本匹配方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN115600580A CN115600580A (zh) 2023-01-13
CN115600580B true CN115600580B (zh) 2023-04-07

Family

ID=84852901

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211504116.XA Active CN115600580B (zh) 2022-11-29 2022-11-29 文本匹配方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115600580B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112749539A (zh) * 2020-01-20 2021-05-04 腾讯科技(深圳)有限公司 文本匹配方法、装置、计算机可读存储介质和计算机设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2760471C1 (ru) * 2020-12-17 2021-11-25 АБИ Девелопмент Инк. Способы и системы идентификации полей в документе
CN112966073B (zh) * 2021-04-07 2023-01-06 华南理工大学 一种基于语义和浅层特征的短文本匹配方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112749539A (zh) * 2020-01-20 2021-05-04 腾讯科技(深圳)有限公司 文本匹配方法、装置、计算机可读存储介质和计算机设备

Also Published As

Publication number Publication date
CN115600580A (zh) 2023-01-13

Similar Documents

Publication Publication Date Title
CN108304372B (zh) 实体提取方法和装置、计算机设备和存储介质
CN112101041B (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
WO2022142041A1 (zh) 意图识别模型的训练方法、装置、计算机设备和存储介质
CN110427612B (zh) 基于多语言的实体消歧方法、装置、设备和存储介质
CN113672731B (zh) 基于领域信息的情感分析方法、装置、设备及存储介质
CN112699686B (zh) 基于任务型对话系统的语义理解方法、装置、设备及介质
CN112766319A (zh) 对话意图识别模型训练方法、装置、计算机设备及介质
CN115146629A (zh) 一种基于对比学习的新闻文本与评论相关性分析方法
CN112052329A (zh) 文本摘要生成方法、装置、计算机设备及可读存储介质
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN115859980A (zh) 一种半监督式命名实体识别方法、系统及电子设备
CN117556050B (zh) 数据分类分级方法、装置、电子设备及存储介质
CN110852071A (zh) 知识点检测方法、装置、设备及可读存储介质
CN112183060B (zh) 多轮对话系统的指代消解方法
CN113515593A (zh) 基于聚类模型的话题检测方法、装置和计算机设备
CN113609873A (zh) 翻译模型训练方法、装置及介质
CN108897739B (zh) 一种智能化的应用流量识别特征自动挖掘方法与系统
CN115033683B (zh) 摘要生成方法、装置、设备及存储介质
CN112989839A (zh) 一种基于关键词特征嵌入语言模型的意图识别方法及系统
CN115600580B (zh) 文本匹配方法、装置、设备及存储介质
CN114048753B (zh) 词义识别模型训练、词义判断方法、装置、设备及介质
CN116483314A (zh) 一种自动化智能活动图生成方法
CN115169370A (zh) 语料数据增强方法、装置、计算机设备及介质
CN114842982A (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN115358227A (zh) 一种基于短语增强的开放域关系联合抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant