CN111782773B - 基于级连模式的文本匹配方法及装置 - Google Patents
基于级连模式的文本匹配方法及装置 Download PDFInfo
- Publication number
- CN111782773B CN111782773B CN202010841991.1A CN202010841991A CN111782773B CN 111782773 B CN111782773 B CN 111782773B CN 202010841991 A CN202010841991 A CN 202010841991A CN 111782773 B CN111782773 B CN 111782773B
- Authority
- CN
- China
- Prior art keywords
- text
- matching
- text matching
- texts
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000009826 distribution Methods 0.000 claims abstract description 43
- 238000013507 mapping Methods 0.000 claims abstract description 20
- 230000011218 segmentation Effects 0.000 claims description 44
- 238000007781 pre-processing Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 6
- 238000006467 substitution reaction Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 description 23
- 238000012549 training Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 238000002372 labelling Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000001105 regulatory effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书的实施例提供基于级连模式的文本匹配方法和装置。在该方法中,使用文本匹配规则来对第一文本集和第二文本集中的文本进行第一文本匹配,得到第一文本匹配结果。此外,使用文本分布匹配算法来对第三文本集和第二文本集中的文本进行第二文本匹配,得到第二文本匹配结果,第三文本集通过从第一文本集中去除第一文本匹配结果中包含的文本得到。此外,使用文本匹配模型来对第四文本集和第二文本集中的文本进行第三文本匹配,得到第三文本匹配结果,第四文本集通过从第三文本集中去除第二文本匹配结果中包含的文本得到。然后,根据第一到第三文本匹配结果,建立第一文本集和第二文本集中的文本之间的映射关系表。
Description
技术领域
本说明书实施例通常涉及文本处理领域,尤其涉及基于级连模式的文本匹配方法及装置。
背景技术
在合规监管领域,为了更好地洞察合规监管的变化态势,需要收集大量相关的处罚案件信息,对这些处理案件信息进行分析并判断相应法律法规和监管处罚力度的变化,然后利用所分析出的合规监管信息来及时调整业务合规自查策略,发现潜在的漏洞并及时整治,从而减少不必要的损失。
在上述应用场景中会使用基于知识图谱的知识推理技术。知识推理的前提是建立法规库法规和案件处罚依据法规之间的映射关系,从而将案件处罚依据法规信息关联到法规库法规中的对应条款。然而案件处罚依据法规的法律条款往往存在书写不规范问题,例如,法规全称简称、多余描述、错别字等情况,这些书写不规范会直接影响到法规文本匹配的准确率。
发明内容
鉴于上述,本说明书实施例提供基于级连模式的文本匹配方法及装置。利用该方法和装置,通过使用基于规则的文本匹配-基于文本分布的文本匹配-基于模型的文本匹配的三级级连模式的文本匹配策略来建立两个文本集中的文本之间的映射关系表,可以提升文本匹配表的建立效率和准确性。
根据本说明书实施例的一个方面,提供一种基于级连模式的文本匹配方法,包括:使用文本匹配规则来对第一文本集和第二文本集中的文本进行第一文本匹配,得到第一文本匹配结果;使用文本分布匹配算法来对第三文本集和所述第二文本集中的文本进行第二文本匹配,得到第二文本匹配结果,所述第三文本集通过从所述第一文本集中去除所述第一文本匹配结果中包含的文本得到;使用文本匹配模型来对第四文本集和所述第二文本集中的文本进行第三文本匹配,得到第三文本匹配结果,所述第四文本集通过从所述第三文本集中去除所述第二文本匹配结果中包含的文本得到;以及根据所述第一到第三文本匹配结果,建立所述第一文本集和所述第二文本集中的文本之间的映射关系表。
可选地,在上述方面的一个示例中,所述文本匹配方法还包括:使用所述第一文本匹配结果和所述第二文本匹配结果来对所述文本匹配模型进行模型调整,使用文本匹配模型来对第四文本集和所述第二文本集中的法规文本进行第三文本匹配包括:使用经过模型调整后的文本匹配模型来对第四文本集和所述第二文本集中的文本进行第三文本匹配。
可选地,在上述方面的一个示例中,所述文本匹配模型包括基于语义的文本匹配模型。
可选地,在上述方面的一个示例中,所述基于语义的文本匹配模型包括BERT模型。
可选地,在上述方面的一个示例中,在使用文本匹配规则来对第一文本集和第二文本集中的文本进行第一文本匹配之前,所述文本匹配方法还包括:对所述第一文本集中的文本进行预处理。
可选地,在上述方面的一个示例中,同义词映射替换和/或特定内容提取。
可选地,在上述方面的一个示例中,所述文本分布匹配算法包括LCS算法。
可选地,在上述方面的一个示例中,所述LCS算法包括:基于字的LCS算法;基于分词的LCS算法;或者基于词分布的LCS算法。
可选地,在上述方面的一个示例中,所述第一文本集由处罚依据法规的法规文本组成,所述第二文本集由法规库法规的法规文本组成。
根据本说明书的实施例的另一方面,提供一种基于级连模式的文本匹配装置,包括:规则匹配单元,使用文本匹配规则来对第一文本集和第二文本集中的文本进行第一文本匹配,得到第一文本匹配结果;文本分布匹配单元,使用文本分布匹配算法来对第三文本集和所述第二文本集中的文本进行第二文本匹配,得到第二文本匹配结果,所述第三文本集通过从所述第一文本集中去除所述第一文本匹配结果中包含的文本得到;模型匹配单元,使用文本匹配模型来对第四文本集和所述第二文本集中的文本进行第三文本匹配,得到第三文本匹配结果,所述第四文本集通过从所述第三文本集中去除所述第二文本匹配结果中包含的文本得到;以及映射关系建立单元,根据所述第一到第三文本匹配结果,建立所述第一文本集和所述第二文本集中的文本之间的映射关系表。
可选地,在上述方面的一个示例中,所述文本匹配装置还包括:模型调整单元,使用所述第一文本匹配结果和所述第二文本匹配结果来对所述文本匹配模型进行模型调整,所述模型匹配单元使用经过模型调整后的文本匹配模型来对第四文本集和所述第二文本集中的文本进行第三文本匹配。
可选地,在上述方面的一个示例中,所述文本匹配装置还包括:预处理单元,在使用文本匹配规则来对第一文本集和第二文本集中的文本进行第一文本匹配之前,对所述第一文本集中的文本进行预处理。
可选地,在上述方面的一个示例中,所述预处理包括:同义词映射替换和/或特定内容提取。
根据本说明书的实施例的另一方面,提供一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器耦合的存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如上所述的文本匹配方法。
根据本说明书的实施例的另一方面,提供一种机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如上所述的文本匹配方法。
附图说明
通过参照下面的附图,可以实现对于本说明书内容的本质和优点的进一步理解。在附图中,类似组件或特征可以具有相同的附图标记。
图1示出了根据本说明书的实施例的基于级连模式的文本匹配方法的示例流程图。
图2示出了根据本说明书的实施例的处罚依据法规文本和法规库法规的示例示意图。
图3示出了根据本说明书的实施例的使用基于分词的LCS算法实现的文本匹配过程的示例流程图。
图4示出了根据本说明书的实施例的使用基于词分布的LCS算法实现的文本匹配过程的示例流程图。
图5示出了根据本说明书的实施例的基于级连模式的文本匹配装置的方框图。
图6示出了根据本说明书的实施例的用于实现基于级连模式的文本匹配过程的电子设备的示意图。
具体实施方式
现在将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题,并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本说明书内容的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种过程或组件。例如,所描述的方法可以按照与所描述的顺序不同的顺序来执行,以及各个步骤可以被添加、省略或者组合。另外,相对一些示例所描述的特征在其它例子中也可以进行组合。
如本文中使用的,术语“包括”及其变型表示开放的术语,含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义,无论是明确的还是隐含的。除非上下文中明确地指明,否则一个术语的定义在整个说明书中是一致的。
在合规监管领域,为了更好地洞察合规监管的变化态势,需要收集大量相关的处罚案件信息,对这些处理案件信息进行分析并判断相应法律法规和监管处罚力度的变化,然后利用所分析出的合规监管信息来及时调整业务合规自查策略,发现潜在的漏洞并及时整治,从而减少不必要的损失。
在上述应用场景中会使用基于知识图谱的知识推理技术。知识推理的前提是建立法规库法规和案件处罚依据法规之间的映射关系,从而将案件处罚依据法规信息关联到法规库法规中的对应条款。然而,案件处罚依据法规的法律条款往往存在书写不规范问题,例如,法规全称简称、多余描述、错别字等情况,这些书写不规范会直接影响到法规文本匹配的准确率。
基于以上原因,无法根据处罚依据法规的法规文本和法规库法规的法规文本直接映射,需要应用短文本匹配算法来完成映射过程。短文本匹配算法主要包括基于规则的文本匹配算法、基于文本分布的文本匹配算法和基于文本匹配模型的文本匹配算法。上述文本匹配算法都是通过设计或学习短文本在特定领域数据分布,计算文本间的相似程度,按一定的置信度来完成文本匹配。
然而,基于规则的算法简单快速,并且能和业务域特点很好地结合,但是在复杂场景下很难覆盖到所有匹配案例。此外,在遇到新的情景时,基于规则的算法泛化性能较差,且过多的规则会相互影响制约,从而降低文本匹配算法整体性能。基于文本分布的方法可以利用动态规划等算法计算文本相似性,其在全称/简称、整体/部分之间的匹配上具有优势,但是没有针对文本语义信息的理解,不适用于错别字和复杂的应用场景。基于模型的算法可以在语义层面对文本进行深入理解,并且泛化性能强,但是其需要足量的训练数据来训练模型参数,特别是深度学习算法,对数据质量的要求更高。此外,模型大多具有黑盒效应,无法针对特殊情况适应性调整模型参数,同时其在算法时效性和资源占用率上的效率不高。
鉴于上述,本说明书的实施例提出基于级连模式的文本匹配方案。在该文本匹配方案中,将上述三种文本匹配算法按照基于规则的文本匹配-基于文本分布的文本匹配-基于模型的文本匹配的顺序组成三级级连结构,并且使用该三级级连结构顺序进行文本匹配。首先,使用复杂度最低的基于规则的文本匹配算法对所有文本进行规则匹配来得到部分匹配结果,由此得到简单文本匹配的匹配结果。接着,使用复杂度中等的基于文本分布的文本匹配算法,对规则无法匹配的文本计算相似度并进行二次匹配。然后,对于基于文本分布的文本匹配算法无法匹配的文本,使用复杂度最高但匹配能力最强的基于模型的文本匹配算法进行文本匹配。按照上述方式,可以在尽可能地降低文本匹配复杂度和工作量的情况下提升文本匹配精度。
下面参照附图描述根据本说明书的实施例的基于级连模式的文本匹配方法及文本匹配装置。
图1示出了根据本说明书的实施例的基于级连模式的文本匹配方法100的示例流程图。
如图1所示,在110,使用文本匹配规则来对第一文本集10和第二文本集20中的文本进行第一文本匹配,得到第一文本匹配结果。可选地,在一个示例中,第一文本集10可以是待匹配文本集,以及第二文本集20是基准文本集(或参考文本集)。在一个示例中,第一文本集10可以由处罚依据法规的法规文本组成,以及第二文本集20可以由法规库法规的法规文本组成。可选地,在一个示例中,第一文本集10和第二文本集20中的文本是短文本。例如,可以通过获取合规监管处罚案例,并从处罚案例中提取处罚依据法规的法规文本来组成第一文本集10。此外,可以通过获取法规库法规的法规文本来组成第二文本集20。图2示出了根据本说明书的实施例的处罚依据法规文本和法规库法规的示例示意图。在本说明书的其它实施例中,第一文本集10和第二文本集20可以是适用于其它应用场景的合适类型的文本集。
在本说明书的一个示例中,所使用的文本匹配规则可以根据文本特性来制定。例如,在文本是法规文本的情况下,可以根据法规文本特性来制定文本匹配规则。在制定文本匹配规则时,采取简单高效原则,不期望覆盖所有应用场景,但需要确保基于规则确定出的文本匹配结果的正确性。
此外,可选地,在一个示例中,在进行第一文本匹配之前,还可以对第一文本集10中的文本进行预处理。所述预处理的示例可以包括但不限于同义词映射替换和/或特定内容提取。第一文本集10是待匹配文本集,并且通常存在书写不规范问题,例如,存在简写、缩写、次序颠倒、错别字等等。利用上述预处理,可以将第一文本集10中的文本变为规范文本。
在本说明书中,在进行同义词映射替换时,可以预先建立专属映射词库,并且使用该专属映射词库来将第一文本集10的文本中的关键词映射替换为标准用语,例如,将“中国人民共和国”、“中国”统一替换为“中华人民共和国”,将“办法”,“条例”统一替换为“法”等。利用上述处理,可以消除例如由于同义词干扰而导致的“《中国婚姻法》和《中华人民共和国婚姻法》”映射失败,或者由于错别字或者歧义词而导致的《中国人民共和国婚姻法》映射失败。
此外,在本说明书中,还可以对第一文本集10中的文本进行特定内容提取。例如,在第一文本集10中的文本是法规文本的情况下,可以采用正则匹配来从法规文本中提取书名号中的法规名称。例如,可以从文本“重庆市关于《中华人民共和国金融法》的通知”中提取出“中华人民共和国金融法”,从而可以消除该文本中的其它无效内容引入的干扰。
在如上完成第一文本匹配处理后,将匹配成功的文本对(即,由第一文本集10中的一个文本以及第二文本集20中的一个文本组成的文本对)确定为第一文本匹配结果120。
在130,使用文本分布匹配算法来对第三文本集和第二文本集中的文本进行第二文本匹配,得到第二文本匹配结果。第三文本集通过从第一文本集中去除第一文本匹配结果中包含的文本得到。换言之,第三文本集由第一文本匹配过程中的未匹配文本组成。
可选地,在一个示例中,文本分布匹配算法可以包括LCS(Longest CommonSubsequence)算法。LCS算法也称为最长公共子序列算法。子序列例如可以是指从某个序列S中任意删除若干个字符而得到的新序列T,序列T称为序列S的子序列。最长公共子序列是指两个序列X和Y的公共子序列中具有最长长度的子序列。可选地,在一个示例中,LCS算法的示例可以包括但不限于基于字的LCS算法;基于分词的LCS算法;或者基于词分布的LCS算法。
基于字的LCS算法以字为粒度来判断两个句子的公共子序列是否为其中之一。基于字的LCS算法可以执行动态规划算法。例如,对于字符串X和Y,其第i和j个词匹配规则可以由下式递推:若最长公共子串为待匹配的两句之一,则可认为其相似性较大。
例如,文本1“中国人民银行关于规范住房金融业务的通知”和文本2“关于规范住房金融业务的通知”可以在基于字的LCS算法下关联起来,认为是匹配文本对。例如,在法规文本匹配领域,基于字的LCS算法可以较好地解决全称简称问题,比如,“证监会”和“证劵监督管理委员会”等,但是对于次序交换场景失效,例如,“中国银行杭州分行”和“杭州中行”,基于字的LCS算法会造成错误匹配。或者,文本1“中华人民共和国商业法”和文本2“中华人民共和国外商投资企业和外国企业所得税法实施细则”)也会被认作是匹配文本对,但实际上两者不是匹配文本对。
基于分词的LCS算法是以分词为粒度进行的文本匹配算法。图3示出了根据本说明书的实施例的使用基于分词的LCS算法实现的文本匹配过程300的示例流程图。
如图3所示,在310,对第二文本集和第三文本集中的文本进行分词处理。在一个示例中,可以通过使用文本分词算法来对文本进行分词处理。所述文本分词算法的示例可以包括但不限于:基于分词词典的文本分词算法;基于统计的文本分词算法;基于规则的文本分词算法;基于模型的文本分词算法;或者基于字标注的文本分词算法。
在本说明书中,分词词典例如可以是自定义词典。自定义词典可以通过使用语料库来确定出。基于统计的文本分词算法可以根据字与字相邻出现的概率或频率来进行文本分词。基于统计的文本分词算法的示例可以包括基于N元文法模型(N-gram)的文本分词算法、基于隐马尔科夫模型的文本分词算法。基于规则的文本分词算法可以对语句进行语义分析和句法分析,并且利用句法信息和语义信息来对语句进行文本分词。基于模型的文本分词算法例如可以是基于文本分词模型的文本分词算法。
基于字标注的文本分词算法实际上是构词方法,即,将文本分词过程视为字在字串中的标注问题。由于每个字在构造特定词语时都占据着确定的构词位置(即,词位),假如规定每个字最多只有四个构词位置:即B(词首),M(词中),E(词尾)和S(单独成词),则下面句子的分词结果(1)就可以直接表示成如(2)所示的逐字标注形式:(1)分词结果:/上海/计划/N/本/世纪/末/实现/人均/国内/生产/总值/五千美元/;(2)字标注形式:上/B海/E计/B划/EN/S本/s世/B纪/E末/S实/B现/E人/B均/E国/B内/E生/B产/E总/B值/E五/B千/M美/M元/E。/S。要说明的是,在本说明书中,术语“字”不限于汉字,也可以包括外文字母、阿拉伯数字和标点符号等字符。
通过将分词过程视为字的标注问题,可以平衡地看待词表词和未登录词(如人名、地名、机构名)的识别问题。在这种分词技术中,文本语句中的词表词和未登录词都是利用统一的字标注过程来实现。在学习架构上,既可以不必专门强调词表词信息,也不用专门设计特定的未登录词识别模块。这使得文本分词系统的设计大大简化。在字标注过程中,所有的字都根据预定义特征进行词位特性学习,获得概率模型。然后,在待分字串上根据字与字之间的结合紧密程度,得到词位的标注结果。最后,根据词位定义直接获得最终的分词结果。
在320,对于分词后的文本,直接以分词为粒度来提取最长公共子序列。例如,采用优化后的LCS算法来从分词后的文本中提取最长公共子序列。
在330,根据所提取出的最长公共子序列来确定文本匹配结果。例如,如果所提取出的最长公共子序列是匹配文本,比如,是两个待匹配文本中的一个文本,则确定文本匹配成功。否则,认为文本匹配不成功。
利用基于分词的LCS算法,可以将匹配文本先进行分词,分词可以帮助划清分词界限,并且将有意义的字进行组合,例如,上述错误文本匹配处理案例在分词后,两个文本将会变为“中华人民共和国/商业法”和“中华人民共和国/外商投资/企业/和/外国/企业/所得税法/实施细则”,然后,以分词为粒度执行动态规划算法来完成最长子序列的查找并匹配。基于分词的LCS算法可以避免大多数错误文本匹配,但是,对于如“中华人民共和国/银监会”、“中华人民共和国/银行/监督管理会”等字粒度能正确匹配的文本匹配处理会发生文本匹配失败。
基于词分布的LCS算法是对基于分词的LCS算法的改进。图4示出了根据本说明书的实施例的使用基于词分布的LCS算法实现的文本匹配过程的示例流程图。
如图4所示,在410,对第二文本集和第三文本集中的文本进行分词处理。
在420,对于分词后的文本,直接以分词为粒度来提取最长公共子序列。例如,采用优化后的LCS算法来从分词后的文本中提取最长公共子序列。
在430,根据所提取出的最长公共子序列来确定文本匹配结果。例如,如果所提取出的最长公共子序列是匹配文本,比如,是两个待匹配文本中的一个文本,则确定文本匹配成功。否则,认为文本匹配不成功。
针对文本匹配不成功的文本,在440,分析两个文本的词分布,例如,词分布比对分析等,并且在450,根据两个文本的词分布分析结果再次确定文本是否匹配。例如,根据两个文本的词分布分析结果,如果针对一个文本中的单个分词,该分词中的字按顺序出现在另一个文本中的连续分词中,则认为该分词与另一文本中的连续分词匹配成功。例如,文本1“中华人民共和国/银监会”中的分词“银监会”的字按顺序连续出现在文本2“中华人民共和国/银行/监督管理会”的连续分词“银行”和“监督管理会”中,从而认为“银监会”与“银行/监督管理会”匹配成功。反之,如果该分词中的字未按顺序出现在另一个文本中的连续分词中,则认为该分词与另一文本中的连续分词匹配不成功。例如,文本1“中华人民共和国/商业法”中的分词“商业法”与文本2“中华人民共和国/外商投资/企业/和/外国/企业/所得税法/实施细则”匹配失败。
从上可以看出,利用基于词分布的LCS算法,可以最大程度地平衡检测率和召回率,提升LCS算法性能。
回到图1,在如上进行第二文本匹配处理后,将匹配成功的文本对确定为第二文本匹配结果140。
在150,使用文本匹配模型160来对第四文本集和第二文本集中的文本进行第三文本匹配,得到第三文本匹配结果。第四文本集通过从第三文本集中去除所述第二文本匹配结果中包含的文本得到。换言之,第三文本集由第一文本匹配过程中的未匹配文本组成。在本说明书的一个示例中,文本匹配模型可以包括基于语义的文本匹配模型。文本匹配模型可以采用深度学习模型。可选地,在一个示例中,基于语义的文本匹配模型可以包括BERT模型等。BERT模型是基于Transformer的双向编码器表征模型,以Transformer结构为基础,应用注意力机制。这里,双向表示BERT模型在处理一个分词时,考虑该分词前面和后面分词的信息,从而获取上下文语义。
为了使得BERT模型适应于文本匹配领域,可以采用文本语料库170来进行模型训练。文本语料库170的示例可以包括但不限于LCQMC语料库,LCQMC语料库是中文语义匹配库。LCQMC语料库中的训练样本由句子两两成对组成,标签1表示语义相同,标签0表示语义不同。由于训练样本数量较大,语义信息较丰富,从而使用BERT模型能够尽快收敛到文本匹配。
此外,可选地,在一个示例中,还可以使用第一文本匹配结果120和第二文本匹配结果140来对文本匹配模型160进行模型调整。然后,使用经过模型调整后的文本匹配模型来对第四文本集和第二文本集中的文本进行第三文本匹配。例如,可以利用第一文本匹配过程和第二文本匹配过程中的成功匹配文本对作为正样本,随机构造负样本,在较小的学习率下对文本匹配模型进行微调,由此实现针对文本匹配模型的模型调整。第一和第二文本匹配的成功匹配文本使得模型微调学习到当前语料的语义信息和数据分布,最大化拟合到匹配任务。例如,在文本是法规文本的情况下,使得模型微调学习到当前法规语料的语义信息和数据分布,从而更好地与当前数据分布拟合。
利用上述模型调整方案,可以使用同数据分布下的文本语料对文本匹配模型进行训练和测试,从而使得文本匹配模型更加适应相同应用领域的数据分布,避免迁移学习造成的测试误差。此外,利用第一文本匹配过程和第二文本匹配过程中的成功匹配文本对作为训练语料,可以增加模型训练语料,减轻模型测试数量,加快测试整体流程的速度,同时最大程度降低了黑盒效应的风险。按照上述模型调整方案,可以保证模型训练和测试数据分布一致性,同时也可以省略构建数据库打标过程。
在如上进行第三文本匹配处理后,将匹配成功的文本对确定为第三文本匹配结果180。
在190,根据第一到第三文本匹配结果,建立第一文本集和第二文本集中的文本之间的映射关系表。例如,可以组合第一到第三文本匹配结果中的文本对来生成映射关系表。
利用上述文本匹配方法,采用级连模式来进行文本匹配处理,每种文本匹配阶段所处理的文本样本由易到难,发挥了不同阶段算法各自的优势,又减轻了不必要的负担。此外,作为深度学习模型的文本匹配模型仅仅处理在前的两个文本匹配阶段未成功匹配的难例文本样本,最大限度地发挥深度学习模型的泛化性能,又最大程度降低模型黑盒效应的影响,提升算法整体性能。
此外,级连模式为文本匹配模型提供了天然的测试域语料分布来供模型训练微调,同时也减轻了文本匹配模型的测试数量,加快了测试整体流程的速度,最大程度降低了黑盒效应的风险,从而达到系统全局最优。
图5示出了根据本说明书的实施例的基于级连模式的文本匹配装置500的方框图。如图5所示,文本匹配装置500包括规则匹配单元510、文本分布匹配单元520、模型匹配单元530和映射关系建立单元540。
规则匹配单元510被配置为使用文本匹配规则来对第一文本集和第二文本集中的文本进行第一文本匹配,得到第一文本匹配结果。规则匹配单元510的操作可以参考上面参照图1描述的110的操作。
文本分布匹配单元520被配置为使用文本分布匹配算法来对第三文本集和第二文本集中的文本进行第二文本匹配,得到第二文本匹配结果,第三文本集通过从第一文本集中去除第一文本匹配结果中包含的文本得到。文本分布匹配单元520的操作可以参考上面参照图1描述的130的操作。
模型匹配单元530被配置为使用文本匹配模型来对第四文本集和第二文本集中的文本进行第三文本匹配,得到第三文本匹配结果。第四文本集通过从第三文本集中去除第二文本匹配结果中包含的文本得到。模型匹配单元530的操作可以参考上面参照图1描述的150的操作。
映射关系建立单元540被配置为根据第一到第三文本匹配结果,建立第一文本集和第二文本集中的文本之间的映射关系表。映射关系表建立单元540的操作可以参考上面参照图1描述的190的操作。
此外,可选地,在一个示例中,文本匹配装置500还可以包括模型调整单元(未示出)。模型调整单元被配置为使用第一文本匹配结果和第二文本匹配结果来对文本匹配模型进行模型调整。相应地,模型匹配单元530使用经过模型调整后的文本匹配模型来对第四文本集和第二文本集中的文本进行第三文本匹配。
此外,可选地,在一个示例中,文本匹配装置500还可以包括预处理单元(未示出)。预处理单元被配置为在使用文本匹配规则来对第一文本集和第二文本集中的文本进行第一文本匹配之前,对第一文本集中的文本进行预处理。可选地,在一个示例中,所述预处理可以包括同义词映射替换和/或特定内容提取。
如上参照图1到图5,对根据本说明书实施例的文本匹配方法和文本匹配装置进行了描述。上面的文本匹配装置可以采用硬件实现,也可以采用软件或者硬件和软件的组合来实现。
图6示出了根据本说明书的实施例的用于实现基于级连模式的文本匹配过程的电子设备600的示意图。如图6所示,电子设备600可以包括至少一个处理器610、存储器(例如,非易失性存储器)620、内存630和通信接口640,并且至少一个处理器610、存储器620、内存630和通信接口640经由总线660连接在一起。至少一个处理器610执行在存储器中存储或编码的至少一个计算机可读指令(即,上述以软件形式实现的元素)。
在一个实施例中,在存储器中存储计算机可执行指令,其当执行时使得至少一个处理器610:使用文本匹配规则来对第一文本集和第二文本集中的文本进行第一文本匹配,得到第一文本匹配结果;使用文本分布匹配算法来对第三文本集和第二文本集中的文本进行第二文本匹配,得到第二文本匹配结果,第三文本集通过从第一文本集中去除第一文本匹配结果中包含的文本得到;使用文本匹配模型来对第四文本集和第二文本集中的文本进行第三文本匹配,得到第三文本匹配结果,第四文本集通过从第三文本集中去除第二文本匹配结果中包含的文本得到;以及根据第一到第三文本匹配结果,建立第一文本集和第二文本集中的文本之间的映射关系表。
应该理解,在存储器中存储的计算机可执行指令当执行时使得至少一个处理器610进行本说明书的各个实施例中以上结合图1-5描述的各种操作和功能。
根据一个实施例,提供了一种比如机器可读介质(例如,非暂时性机器可读介质)的程序产品。机器可读介质可以具有指令(即,上述以软件形式实现的元素),该指令当被机器执行时,使得机器执行本说明书的各个实施例中以上结合图1-5描述的各种操作和功能。具体地,可以提供配有可读存储介质的系统或者装置,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。
在这种情况下,从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。
可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上或云上下载程序代码。
本领域技术人员应当理解,上面公开的各个实施例可以在不偏离发明实质的情况下做出各种变形和修改。因此,本发明的保护范围应当由所附的权利要求书来限定。
需要说明的是,上述各流程和各系统结构图中不是所有的步骤和单元都是必须的,可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的,可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构,也可以是逻辑结构,即,有些单元可能由同一物理实体实现,或者,有些单元可能分由多个物理实体实现,或者,可以由多个独立设备中的某些部件共同实现。
以上各实施例中,硬件单元或模块可以通过机械方式或电气方式实现。例如,一个硬件单元、模块或处理器可以包括永久性专用的电路或逻辑(如专门的处理器,FPGA或ASIC)来完成相应操作。硬件单元或处理器还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器),可以由软件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑来确定。
上面结合附图阐述的具体实施方式描述了示例性实施例,但并不表示可以实现的或者落入权利要求书的保护范围的所有实施例。在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”,并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的,具体实施方式包括具体细节。然而,可以在没有这些具体细节的情况下实施这些技术。在一些实例中,为了避免对所描述的实施例的概念造成难以理解,公知的结构和装置以框图形式示出。
本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说,对本公开内容进行的各种修改是显而易见的,并且,也可以在不脱离本公开内容的保护范围的情况下,将本文所定义的一般性原理应用于其它变型。因此,本公开内容并不限于本文所描述的示例和设计,而是与符合本文公开的原理和新颖性特征的最广范围相一致。
Claims (13)
1.一种基于级连模式的文本匹配方法,包括:
使用文本匹配规则来对第一文本集和第二文本集中的文本进行第一文本匹配,得到第一文本匹配结果;
使用文本分布匹配算法来对第三文本集和所述第二文本集中的文本进行第二文本匹配,得到第二文本匹配结果,所述第三文本集通过从所述第一文本集中去除所述第一文本匹配结果中包含的文本得到;
使用所述第一文本匹配结果和所述第二文本匹配结果来对文本匹配模型进行模型调整;
使用经过模型调整后的文本匹配模型来对第四文本集和所述第二文本集中的文本进行第三文本匹配,得到第三文本匹配结果,所述第四文本集通过从所述第三文本集中去除所述第二文本匹配结果中包含的文本得到;以及
根据所述第一到第三文本匹配结果,建立所述第一文本集和所述第二文本集中的文本之间的映射关系表,
其中,基于文本匹配规则的文本匹配、基于文本分布匹配算法的文本匹配和基于文本匹配模型的文本匹配的复杂度依序递增。
2.如权利要求1所述的文本匹配方法,其中,所述文本匹配模型包括基于语义的文本匹配模型。
3.如权利要求2所述的文本匹配方法,其中,所述基于语义的文本匹配模型包括BERT模型。
4.如权利要求1所述的文本匹配方法,其中,在使用文本匹配规则来对第一文本集和第二文本集中的文本进行第一文本匹配之前,所述方法还包括:
对所述第一文本集中的文本进行预处理。
5.如权利要求4所述的文本匹配方法,其中,所述预处理包括:同义词映射替换和/或特定内容提取。
6.如权利要求1所述的文本匹配方法,其中,所述文本分布匹配算法包括LCS算法。
7.如权利要求6所述的文本匹配方法,其中,所述LCS算法包括:
基于字的LCS算法;
基于分词的LCS算法;或者
基于词分布的LCS算法。
8.如权利要求1到7中任一所述的方法,其中,所述第一文本集由处罚依据法规的法规文本组成,所述第二文本集由法规库法规的法规文本组成。
9.一种基于级连模式的文本匹配装置,包括:
规则匹配单元,使用文本匹配规则来对第一文本集和第二文本集中的文本进行第一文本匹配,得到第一文本匹配结果;
文本分布匹配单元,使用文本分布匹配算法来对第三文本集和所述第二文本集中的文本进行第二文本匹配,得到第二文本匹配结果,所述第三文本集通过从所述第一文本集中去除所述第一文本匹配结果中包含的文本得到;
模型调整单元,使用所述第一文本匹配结果和所述第二文本匹配结果来对文本匹配模型进行模型调整;
模型匹配单元,使用经过模型调整后的文本匹配模型来对第四文本集和所述第二文本集中的文本进行第三文本匹配,得到第三文本匹配结果,所述第四文本集通过从所述第三文本集中去除所述第二文本匹配结果中包含的文本得到;以及
映射关系建立单元,根据所述第一到第三文本匹配结果,建立所述第一文本集和所述第二文本集中的文本之间的映射关系表,
其中,基于文本匹配规则的文本匹配、基于文本分布匹配算法的文本匹配和基于文本匹配模型的文本匹配的复杂度依序递增。
10.如权利要求9所述的文本匹配装置,还包括:
预处理单元,在使用文本匹配规则来对第一文本集和第二文本集中的文本进行第一文本匹配之前,对所述第一文本集中的文本进行预处理。
11.如权利要求10所述的文本匹配装置,其中,所述预处理包括:同义词映射替换和/或特定内容提取。
12.一种电子设备,包括:
至少一个处理器,以及
与所述至少一个处理器耦合的存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如权利要求1到8中任一所述的文本匹配方法。
13.一种机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如权利要求1到8中任一所述的文本匹配方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010841991.1A CN111782773B (zh) | 2020-08-20 | 2020-08-20 | 基于级连模式的文本匹配方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010841991.1A CN111782773B (zh) | 2020-08-20 | 2020-08-20 | 基于级连模式的文本匹配方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111782773A CN111782773A (zh) | 2020-10-16 |
CN111782773B true CN111782773B (zh) | 2024-03-22 |
Family
ID=72762465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010841991.1A Active CN111782773B (zh) | 2020-08-20 | 2020-08-20 | 基于级连模式的文本匹配方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111782773B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115203439B (zh) * | 2022-09-15 | 2022-11-29 | 天津市道本科技有限公司 | 用于合规监管的知识图谱的构建方法、相关方法和系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645391B1 (en) * | 2008-07-03 | 2014-02-04 | Google Inc. | Attribute-value extraction from structured documents |
CN105183733A (zh) * | 2014-06-05 | 2015-12-23 | 阿里巴巴集团控股有限公司 | 一种文本信息的匹配、业务对象的推送方法和装置 |
CN110516063A (zh) * | 2019-07-11 | 2019-11-29 | 网宿科技股份有限公司 | 一种服务系统的更新方法、电子设备及可读存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7174507B2 (en) * | 2003-02-10 | 2007-02-06 | Kaidara S.A. | System method and computer program product for obtaining structured data from text |
US20190362003A1 (en) * | 2018-05-24 | 2019-11-28 | Microsoft Technology Licensing, Llc | Techniques for processing long-tail search queries against a vertical search corpus |
-
2020
- 2020-08-20 CN CN202010841991.1A patent/CN111782773B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645391B1 (en) * | 2008-07-03 | 2014-02-04 | Google Inc. | Attribute-value extraction from structured documents |
CN105183733A (zh) * | 2014-06-05 | 2015-12-23 | 阿里巴巴集团控股有限公司 | 一种文本信息的匹配、业务对象的推送方法和装置 |
CN110516063A (zh) * | 2019-07-11 | 2019-11-29 | 网宿科技股份有限公司 | 一种服务系统的更新方法、电子设备及可读存储介质 |
Non-Patent Citations (1)
Title |
---|
中文文本分类关键技术的研究;胡朝举;杨孟英;;电脑编程技巧与维护(14);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111782773A (zh) | 2020-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Samih et al. | Multilingual code-switching identification via lstm recurrent neural networks | |
US20230031738A1 (en) | Taxpayer industry classification method based on label-noise learning | |
CN109815336B (zh) | 一种文本聚合方法及系统 | |
CN107943911A (zh) | 数据抽取方法、装置、计算机设备及可读存储介质 | |
CN111062376A (zh) | 基于光学字符识别与纠错紧耦合处理的文本识别方法 | |
CN103678684A (zh) | 一种基于导航信息检索的中文分词方法 | |
CN111062397A (zh) | 一种智能票据处理系统 | |
CN110751234B (zh) | Ocr识别纠错方法、装置及设备 | |
CN112711652B (zh) | 术语标准化方法及装置 | |
CN114579693B (zh) | 一种nlp文本安全审核多级检索系统 | |
CN112613293B (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN115034218A (zh) | 一种基于多阶段训练和编辑级别投票的中文语法错误诊断方法 | |
CN114153978A (zh) | 模型训练方法、信息抽取方法、装置、设备及存储介质 | |
CN116502628A (zh) | 基于知识图谱的政务领域多阶段融合的文本纠错方法 | |
Namysl et al. | NAT: Noise-aware training for robust neural sequence labeling | |
CN113449514A (zh) | 一种适用于特定垂直领域的文本纠错方法及其纠错装置 | |
Jo et al. | Modeling mathematical notation semantics in academic papers | |
Pal et al. | OCR error correction of an inflectional indian language using morphological parsing | |
CN111782773B (zh) | 基于级连模式的文本匹配方法及装置 | |
CN114218921A (zh) | 一种优化bert的问题语义匹配方法 | |
CN112395407A (zh) | 企业实体关系的抽取方法、装置及存储介质 | |
CN111597810A (zh) | 一种半监督解耦的命名实体识别方法 | |
CN116910251A (zh) | 基于bert模型的文本分类方法、装置、设备及介质 | |
Fang et al. | Non-Autoregressive Chinese ASR Error Correction with Phonological Training | |
CN111428475B (zh) | 分词词库的构建方法、分词方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |