CN109614463A - 文本匹配处理方法及装置 - Google Patents

文本匹配处理方法及装置 Download PDF

Info

Publication number
CN109614463A
CN109614463A CN201811241976.2A CN201811241976A CN109614463A CN 109614463 A CN109614463 A CN 109614463A CN 201811241976 A CN201811241976 A CN 201811241976A CN 109614463 A CN109614463 A CN 109614463A
Authority
CN
China
Prior art keywords
text
template
matching
text matches
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811241976.2A
Other languages
English (en)
Other versions
CN109614463B (zh
Inventor
杨明晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811241976.2A priority Critical patent/CN109614463B/zh
Publication of CN109614463A publication Critical patent/CN109614463A/zh
Application granted granted Critical
Publication of CN109614463B publication Critical patent/CN109614463B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供文本匹配处理方法及装置。在该方法中,使用至少一个文本匹配规则模板来对待处理文本进行模板匹配;以及输出经过模板匹配后的匹配结果,该文本匹配规则模板包括至少一行白名单和至少一行黑名单,所述白名单表示文本匹配规则需要包含的至少一个短语,所述黑名单表示文本匹配规则不能包含的至少一个短语,在进行模板匹配时,待处理文本被配置为与文本匹配规则模板中的各个短语进行匹配,文本匹配规则模板中的各行名单之间的匹配逻辑关系为与关系,以及文本匹配规则模板中的每行名单中的各个短语之间的匹配逻辑关系为或关系。利用该方法,使得文本匹配处理更加容易、直观和高效,并且对于业务运营人员而言具有较高的友好度。

Description

文本匹配处理方法及装置
技术领域
本公开通常涉及自然语言处理领域,更具体地,涉及文本匹配处理方法及装置。
背景技术
自然语言处理系统一般由文本规则和算法模型组成。文本规则通常比较具体、可控性和可解释性较强,而算法模型通常比较抽象,具有更好的泛化能力。在处理简单的文本处理问题时,仅仅使用文本规则或者仅仅使用算法模型就可以取得不错的结果,而在处理复杂的文本处理问题时,需要将文本规则和算法模型结合使用才能发挥更好的效果。
智能客服机器人是一种自然语言处理系统,其利用文本交互的形式,识别用户提问,解决用户问题。在智能客服机器人中存在多个重要的处理模型,其中,影响最大的处理模块是业务分类模块。业务分类模块被使用来识别用户所提的问题所属的业务类目,然后下游的其它处理模块(比如,算法模型和数据分析模块)利用业务分类模块的业务分类结果来执行相应的处理。随着智能客服机器人所支持的业务发展迅速,业务类目变化频繁,而算法模型的迭代周期较长,难以跟上变化,从而针对该类文本处理问题,通常采用文本规则来处理。
在现有的文本规则实现方案中,最常用的是正则表达式。然而,编写正则表达式需要具有一定的技术知识储备,从而对于缺少技术能力的业务运营人员而言,编写正则表达式并不容易。此外,正则表达式不够直观,容易写错,并且针对复杂的正则表达式,检查和修改也比较困难。
发明内容
鉴于上述问题,本公开提供了一种文本匹配处理方法及装置。利用该文本匹配处理方法及装置,通过提出一种易于编写且直观的文本匹配规则模板,并且利用该文本匹配规则模板来对输入文本进行文本匹配,可以使得文本匹配处理更加容易、直观和高效,并且对于业务运营人员而言具有较高的友好度。
根据本公开的一个方面,提供了一种文本匹配处理方法,包括:使用至少一个文本匹配规则模板来对待处理文本进行模板匹配;以及输出经过模板匹配后的匹配结果,其中,所述文本匹配规则模板包括至少一行白名单和至少一行黑名单,所述白名单表示文本匹配规则需要包含的至少一个短语,所述黑名单表示文本匹配规则不能包含的至少一个短语,在进行模板匹配时,所述待处理文本被配置为与所述文本匹配规则模板中的各个短语进行匹配,所述文本匹配规则模板中的各行名单之间的匹配逻辑关系为与关系,以及所述文本匹配规则模板中的每行名单中的各个短语之间的匹配逻辑关系为或关系。
可选地,在上述方面的一个示例中,所述方法还可以包括:获取所述待处理文本。
可选地,在上述方面的一个示例中,所述方法还可以包括:对所述待处理文本进行预处理,以去除所述待处理文本中的无效字符。
可选地,在上述方面的一个示例中,所述方法还可以包括:使用字典树来对所述待处理文本进行关键词预匹配,以获取所述待处理文本中的与所述字典树匹配的短语,以及使用至少一个文本匹配规则模板来对所述待处理文本进行模板匹配包括:使用至少一个文本匹配规则模板来对所获取的与所述字典树匹配的短语进行模板匹配,其中,所述字典树是基于所有文本匹配规则模板中所包含的经过去重处理后的短语创建的。
可选地,在上述方面的一个示例中,所述方法还可以包括:按照预定规则对经过模板匹配后的匹配结果进行整合处理,以及输出经过模板匹配后的匹配结果包括:输出经过整合处理后的匹配结果。
可选地,在上述方面的一个示例中,所述至少一个文本匹配规则模板是采用下述过程获得的:编辑至少一个文本匹配规则模板;使用测试文本样本来对所编辑的至少一个文本匹配规则模板进行测试;以及保存通过所述样本测试的文本匹配规则模板,以用于文本匹配处理。
根据本公开的另一方面,提供一种文本匹配处理装置,包括:模板匹配单元,被配置为使用至少一个文本匹配规则模板来对所述待处理文本进行模板匹配;以及匹配结果输出单元,被配置为输出经过模板匹配后的匹配结果,其中,所述文本匹配规则模板包括至少一行白名单和至少一行黑名单,所述白名单表示文本匹配规则需要包含的至少一个短语,所述黑名单表示文本匹配规则不能包含的至少一个短语,在进行模板匹配时,所述待处理文本被配置为与所述文本匹配规则模板中的各个短语进行匹配,所述文本匹配规则模板中的各行名单之间的匹配逻辑关系为与关系,以及所述文本匹配规则模板中的每行名单中的各个短语之间的匹配逻辑关系为或关系。
可选地,在上述方面的一个示例中,所述文本匹配处理装置还可以包括:文本获取单元,被配置为获取所述待处理文本。
可选地,在上述方面的一个示例中,所述文本匹配处理装置还可以包括:预处理单元,被配置为对所述待处理文本进行预处理,以去除所述待处理文本中的无效字符。
可选地,在上述方面的一个示例中,所述文本匹配处理装置还可以包括:字典树创建单元,被配置为基于所有文本匹配规则模板中所包含的经过去重处理后的短语创建字典树;以及预匹配单元,被配置为使用所述字典树来对所述待处理文本进行关键词预匹配,以获取所述待处理文本中的与所述字典树匹配的短语,以及所述模板匹配单元被配置为:使用至少一个文本匹配规则模板来对所获取的与所述字典树匹配的短语进行模板匹配。
可选地,在上述方面的一个示例中,所述文本匹配处理装置还可以包括:整合处理单元,被配置为按照预定规则对经过模板匹配后的匹配结果进行整合处理,以及所述匹配结果输出单元被配置为:输出经过整合处理后的匹配结果。
可选地,在上述方面的一个示例中,所述文本匹配处理装置还可以包括:模板编辑单元,被配置为编辑至少一个文本匹配规则模板;模板测试单元,被配置为使用测试文本样本来对所编辑的至少一个文本匹配规则模板进行测试;以及模板存储单元,被配置为保存通过所述样本测试的文本匹配规则模板,以用于文本匹配处理。
根据本公开的另一方面,提供一种计算设备,包括:一个或多个处理器,以及与所述一个或多个处理器耦合的存储器,所述存储器存储指令,当所述指令被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如上所述的文本匹配处理方法。
根据本公开的另一方面,提供一种非暂时性机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如上所述的文本匹配处理方法。
附图说明
通过参照下面的附图,可以实现对于本公开内容的本质和优点的进一步理解。在附图中,类似组件或特征可以具有相同的附图标记。
图1A示出了根据本公开的实施例的文本匹配规则模板的一个示例的示意图;
图1B示出了根据本公开的实施例的文本匹配规则模板的另一具体示例的示意图;
图2示出了根据本公开的实施例的用于编写文本匹配规则模板的过程的一个示例的流程图;
图3示出了根据本公开的实施例的文本匹配处理方法的流程图;
图4示出了根据本公开的另一实施例的文本匹配处理方法的流程图;
图5示出了根据本公开的另一实施例的文本匹配处理装置的方框图;
图6示出了根据本公开的另一实施例的文本匹配处理装置的方框图;
图7示出了根据本公开的实施例的用于文本匹配处理的计算设备的方框图。
具体实施方式
现在将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题,并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本公开内容的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种过程或组件。例如,所描述的方法可以按照与所描述的顺序不同的顺序来执行,以及各个步骤可以被添加、省略或者组合。另外,相对一些示例所描述的特征在其它例子中也可以进行组合。
如本文中使用的,术语“包括”及其变型表示开放的术语,含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义,无论是明确的还是隐含的。除非上下文中明确地指明,否则一个术语的定义在整个说明书中是一致的。
根据本公开的实施例,提供了一种易于编写且直观的文本匹配规则模板,并且利用该文本匹配规则模板来对输入文本进行文本匹配,从而使得文本匹配规则模板的编写更加容易、直观和高效,并且对于业务运营人员而言具有较高的友好度,由此使得比如文本分类处理的文本处理操作变得易于操作和高效。
图1A示出了根据本公开的实施例的文本匹配规则模板10的一个示例的示意图。
文本匹配规则模板10包括至少一行白名单和至少一行黑名单。在本文中,白名单表示文本匹配规则需要包含的至少一个短语,黑名单表示文本匹配规则不能包含的至少一个短语。所述短语例如可以是“花呗”、“花贝”、“还”和“信用卡”等。在图1A中示出的文本匹配规则模板10中,包括2个白名单White1和White2以及1个黑名单Black1。如图1A所示,白名单White1包括三个短语w1、w2和w3,白名单White2包括2个短语w4和w5。黑名单Black1包括b1和b2。这里要说明的是,图1A中示出的文本匹配规则模块10仅仅是一个示例。在本公开的其它示例中,可以包括更多或更少的白名单和黑名单,并且每个白名单和黑名单中可以包括更多或更少的短语。图1B示出了根据本公开的实施例的文本匹配规则模板的另一具体示例的示意图
此外,在进行模板匹配时,文本匹配规则模板还被配置为使得待处理文本与文本匹配规则模板中的各个短语进行匹配。而且,文本匹配规则模板中的各行名单之间的匹配逻辑关系为与关系,以及文本匹配规则模板中的每行名单中的各个短语之间的匹配逻辑关系为或关系。
例如,如果用c(x,s)表示待处理文本s中是否包含短语x,则c(x,s)可以表示为在本公开的其它示例中,也可以使用数字1来代替True,以及使用数字0来代替False。
在本公开中,可以使用match(t,s)来表示待处理文本s与文本匹配规则模板t之间的匹配结果。假设t为图1A中示出的文本匹配规则模板,则
按照上述文本匹配规则,如果文本匹配规则模板为图1B中示出的文本匹配规则模板,则待处理文本“花呗还款”、“怎么还花贝”的匹配结果为True或1,而待处理文本“花呗是什么”、“怎么还款”和“花呗能还信用卡吗”的匹配结果为False或0。
从上面可以看出,本公开的文本匹配规则模板不是采用正则表达式表示的,而是采用易于理解且直观的短语组成的白名单和黑名单组成,并且文本匹配规则的匹配逻辑也是包含和/或不包含关系,并且采用易于理解的逻辑或和逻辑与来表达,从而使得文本匹配规则模板的制作变得容易且直观,无需编写人员具备正则表达式的编写能力和理解能力。
图2示出了根据本公开的实施例的用于编写文本匹配规则模板的过程的一个示例的流程图。
如图2所示,在块210中,编辑至少一个文本匹配规则模板。这里,编辑至少一个文本匹配规则模板可以是编写人员创建新的文本匹配规则模板,也可以是对预先编写的文本匹配规则模板进行修改来形成新的文本匹配规则模板。
在编辑好至少一个文本匹配规则模板后,在块220,使用测试文本样本来对所编辑的至少一个文本匹配规则模板进行测试。
接着,在块230,判断测试是否成功。如果测试成功,则在块240,保存通过所述样本测试的文本匹配规则模板,以用于文本匹配处理。如果测试不成功,则返回到块210,重新对文本匹配规则模板进行修改。
这里要说明的是,图2中示出的文本匹配规则模板编写过程可以在根据本公开的文本匹配处理装置中实现。相应地,通过样本测试的文本规则匹配模板存储在文本匹配处理装置中,以供后续文本匹配使用。另外,在本公开的一个示例中,所述预先编写的文本匹配规则模板可以预先存储在本公开的文本匹配处理装置的存储单元中,并且在编辑时从存储单元中获取。在本公开的另一示例中,所述预先编写的文本匹配规则模板也可以是在存储在本公开的文本匹配处理装置之外的外部设备(例如,服务器)中。在进行文本匹配规则模板编辑时,从外部设备获取或者由外部设备推送给文本匹配处理装置。
此外,图2中示出的文本匹配规则模板编写过程也可以在本公开的文本匹配处理装置之外的外部设备(例如,服务器)中实现。相应地,通过样本测试的文本规则匹配模板存储在外部设备中,以供后续文本匹配使用。在进行文本匹配时,文本匹配处理装置从外部设备获取文本匹配规则模板,或者,外部设备将文本匹配规则模板推送给文本匹配处理装置。
图3示出了根据本公开的实施例的文本匹配处理方法的流程图。
如图3所示,在块310,使用至少一个文本匹配规则模板来对待处理文本进行模板匹配。针对待处理文本的模板匹配可以参照上面参考图1所述的模板匹配方式来执行。此外,如上所述,所述至少一个文本匹配规则模板可以是预先编写好并存储在文本匹配处理装置中。所述至少一个文本匹配规则模板也可以是预先编写好并存储在文本匹配处理装置之外的外部设备中,并且在进行文本匹配处理时,从外部设备获取的或者由外部设备推送给文本匹配处理装置。在本公开中,至少一个文本匹配规则模板也可以称为文本匹配规则系统。
此外,所述待处理文本可以是文本匹配处理装置中预先存储的待处理文本,也可以是用户实时输入的待处理文本,或者是从外部输入装置接收的待处理文本。
在完成上述模板匹配后,在块320,输出经过模板匹配后的匹配结果。在本公开中,针对匹配结果的输出,可以采用文本格式、视频格式、音频格式、图像格式或者下游系统可以识别的其它格式来向用户输出匹配结果。
如上参照图3描述了根据本公开的文本匹配处理方法的一个示例过程。利用图3示出的文本匹配处理方法,通过采用易于理解且直观的短语组成的白名单和黑名单来组成文本匹配规则模板,并且所组成的文本匹配规则模板的文本匹配规则的匹配逻辑也是包含和/或不包含关系,并且采用易于理解的逻辑或和逻辑与来表达,而不是使用正则表达式来描述文本匹配规则模板,从而使得文本匹配规则模板的制作变得容易且直观,无需编写人员具备正则表达式的编写能力和理解能力
图4示出了根据本公开的另一实施例的文本匹配处理方法的流程图。
如图4所示,在块410,获取待处理文本。在本公开中,待处理文本的获取方式可以是通过用户在文本匹配装置上的实时输入(例如,用户经由文本匹配装置的输入装置或输入界面实时输入)来获取的,或者是从外部输入装置接收的待处理文本。
接着,在块420,对所述待处理文本进行预处理,以去除所述待处理文本中的无效字符。所述无效字符例如可以是对文本匹配没有影响的字符,比如空格、特殊符号等。
在执行完上述预处理后,在块430,使用字典树来对待处理文本进行关键词预匹配,以获取待处理文本中的与字典树匹配的短语。所述字典树是基于所有文本匹配规则模板中所包含的经过去重处理后的短语创建的。例如,所述字典树可以是Trie树。如何基于短语来创建字典树可以采用本领域的任何合适的方式来创建。
然后,在块440,使用至少一个文本匹配规则模板来对所获取的与字典树匹配的短语进行模板匹配。同样,针对与字典树匹配的短语的模板匹配可以参照上面参考图1所述的模板匹配方式来执行。
在完成针对至少一个文本匹配规则模板的模板匹配后,在块450,按照预定规则对经过模板匹配后的匹配结果进行整合处理。在本公开中,所述预定规则可以包括:输出全部匹配结果。或者,所述预定规则可以包括:按照预定排序顺序来对模板匹配后的匹配结果进行排序,然后输出排序在前预定位或排序在前百分比的匹配结果,或者输出排序在后预定位或排序在后百分比的匹配结果。另外,预定排序顺序可以是基于文本匹配规则模板的具体内容来预先规定的。
然后,在块460中,输出经过整合处理后的匹配结果。匹配结果的输出方式可以参照上面参考图3描述的块320的描述。
利用图4中示出的文本匹配处理方法,通过对待处理文本进行预处理来去除待处理文本中的无效字符,从而可以减少文本匹配处理时针对待处理文本进行短语匹配时的短语遍历量,由此降低文本匹配处理过程中的计算量,提升文本匹配处理效率。
此外,利用图4中示出的文本匹配处理方法,通过使用通过对所有文本规则匹配模板中经过去重处理后的短语组成的字典树来对待处理文本进行关键词预匹配,以获取待处理文本中的与字典树匹配的短语,然后使用至少一个文本匹配规则模板来对所获取的与字典树匹配的短语进行模板匹配,而不是使用每个文本匹配规则模板来对待处理文本进行短语匹配处理,从而可以大大降低文本匹配处理的时间复杂度。
具体地,在没有使用字典树执行关键词预匹配的技术方案中,每计算一次c(x,s),都需要针对待处理文本执行一次短语查找。假设至少一个文本匹配规则模板包括m个文本匹配规则模板需要遍历,待处理文本的平均长度为l,则查找待处理文本所匹配的文本匹配规则模板的时间复杂度为O(mnl)。
而在使用比如Trie树的字典树执行关键词预匹配的技术方案中,一方面使用字典树来加快匹配速度,另一方面预先计算好所有短语匹配结果以减少重复计算。例如,假设所有文本匹配规则模板经过去重处理后的短语总数为p。对该p个短语创建Trie树。在执行文本匹配时,首先利用Trie树获取待处理文本中所包含的所有短语,并将获取结果保存下来,其时间复杂度为O(l)。然后,在执行每个短语的匹配情况时,从获取结果中获取各个短语来与文本规则匹配模板执行匹配,其时间复杂度为O(l)+O(mn)。由于通常m*n远大于l,从而其时间复杂度为O(mn),由此使得文本匹配处理的时间复杂度大大降低。
此外,利用图4中示出的文本匹配处理方法,通过对匹配结果进行整合处理,可以使得能够根据用户的要求来进行匹配结果输出。
此外,要说明的是,图4中的描述的部分块的操作也可以是可选的,比如块410、块420、块430和块450的操作。在本公开的其它示例中,也可以删除上述可选操作中的部分或全部。此外,在本公开的其它示例中,也可以对图4中描述的块的操作进行修改。
图5示出了根据本公开的另一实施例的文本匹配处理装置500的方框图。
如图5所示,文本匹配处理装置500包括模板匹配单元510和匹配结果输出单元520。
模板匹配单元510被配置为使用至少一个文本匹配规则模板来对所述待处理文本进行模板匹配。模板匹配单元510的操作可以参照上面参考图3描述的块310的操作。
匹配结果输出单元520被配置为输出经过模板匹配后的匹配结果。匹配结果输出单元520的操作可以参照上面参考图3描述的块320的操作。
图6示出了根据本公开的另一实施例的文本匹配处理装置600的方框图。
如图6所示,文本匹配处理装置600包括文本获取单元610、预处理单元620、字典树创建单元630、预匹配单元640、模板匹配单元650、整合处理单元660和匹配结果输出单元670。
文本获取单元610被配置为获取所述待处理文本。文本获取单元610的操作可以参照上面参考图4描述的块410的操作。
预处理单元620被配置为对所述待处理文本进行预处理,以去除所述待处理文本中的无效字符。预处理单元620的操作可以参照上面参考图4描述的块420的操作。
字典树创建单元630被配置为基于所有文本匹配规则模板中所包含的经过去重处理后的短语创建字典树。预匹配单元640被配置为使用所述字典树来对所述待处理文本进行关键词预匹配,以获取所述待处理文本中的与所述字典树匹配的短语。字典树创建单元630和预匹配单元640的操作可以参照上面参考图4描述的块430的操作。
模板匹配单元650配置为使用至少一个文本匹配规则模板来对所获取的与所述字典树匹配的短语进行模板匹配。模板匹配单元650的操作可以参照上面参考图4描述的块440的操作。
整合处理单元660被配置为按照预定规则对经过模板匹配后的匹配结果进行整合处理。整合处理单元660的操作可以参照上面参考图4描述的块450的操作。
匹配结果输出单元670被配置为输出经过整合处理后的匹配结果。匹配结果输出单元670的操作可以参照上面参考图4描述的块460的操作。
此外,文本匹配处理装置600还可以包括模板编辑单元680、模板测试单元690和模板存储单元695。
模板编辑单元680被配置为编辑至少一个文本匹配规则模板。模板编辑单元680的操作可以参照上面参考图2描述的块210的操作。
模板测试单元690被配置为使用测试文本样本来对所编辑的至少一个文本匹配规则模板进行测试。模板编辑单元690的操作可以参照上面参考图2描述的块210的操作。
模板存储单元695被配置为保存通过所述样本测试的文本匹配规则模板,以用于文本匹配处理。模板存储单元695的操作可以参照上面参考图2描述的块240的操作。
此外,在本公开的其它实施例中,文本匹配处理装置600也可以不包括文本获取单元610、预处理单元620、字典树创建单元630、预匹配单元640和整合处理单元660中的部分或全部。此外,文本匹配处理装置600也可以不包括模板编辑单元680、模板测试单元690和模板存储单元695。模板编辑单元680、模板测试单元690和模板存储单元695可以组成模板创建设备或者作为外部设备的组件而在外部实现。
如上参照图1到图6,对根据本公开的文本匹配处理方法和装置的实施例进行了描述。上面的文本匹配处理装置可以采用硬件实现,也可以采用软件或者硬件和软件的组合来实现。
图7示出了根据本公开的实施例的用于文本匹配处理的计算设备700的方框图。根据一个实施例,计算设备700可以包括至少一个处理器710,该至少一个处理器710执行在计算机可读存储介质(即,存储器720)中存储或编码的至少一个计算机可读指令(即,上述以软件形式实现的元素)。
在一个实施例中,在存储器720中存储计算机可执行指令,其当执行时使得至少一个处理器710:使用至少一个文本匹配规则模板来对待处理文本进行模板匹配;以及输出经过模板匹配后的匹配结果,其中,所述文本匹配规则模板包括至少一行白名单和至少一行黑名单,所述白名单表示文本匹配规则需要包含的至少一个短语,所述黑名单表示文本匹配规则不能包含的至少一个短语,在进行模板匹配时,所述待处理文本被配置为与所述文本匹配规则模板中的各个短语进行匹配,所述文本匹配规则模板中的各行名单之间的匹配逻辑关系为与关系,以及所述文本匹配规则模板中的每行名单中的各个短语之间的匹配逻辑关系为或关系。
应该理解,在存储器720中存储的计算机可执行指令当执行时使得至少一个处理器710进行本公开的各个实施例中以上结合图1-6描述的各种操作和功能。
在本公开中,计算设备700可以包括但不限于:个人计算机、服务器计算机、工作站、桌面型计算机、膝上型计算机、笔记本计算机、移动计算设备、智能电话、平板计算机、蜂窝电话、个人数字助理(PDA)、手持装置、消息收发设备、可佩戴计算设备、消费电子设备等等。
根据一个实施例,提供了一种比如非暂时性机器可读介质的程序产品。非暂时性机器可读介质可以具有指令(即,上述以软件形式实现的元素),该指令当被机器执行时,使得机器执行本公开的各个实施例中以上结合图1-6描述的各种操作和功能。具体地,可以提供配有可读存储介质的系统或者装置,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。
在这种情况下,从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。
可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上或云上下载程序代码。
本领域技术人员应当理解,上面公开的各个实施例可以在不偏离发明实质的情况下做出各种变形和修改。因此,本发明的保护范围应当由所附的权利要求书来限定。
需要说明的是,上述各流程和各系统结构图中不是所有的步骤和单元都是必须的,可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的,可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构,也可以是逻辑结构,即,有些单元可能由同一物理实体实现,或者,有些单元可能分由多个物理实体实现,或者,可以由多个独立设备中的某些部件共同实现。
以上各实施例中,硬件单元或模块可以通过机械方式或电气方式实现。例如,一个硬件单元、模块或处理器可以包括永久性专用的电路或逻辑(如专门的处理器,FPGA或ASIC)来完成相应操作。硬件单元或处理器还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器),可以由软件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑来确定。
上面结合附图阐述的具体实施方式描述了示例性实施例,但并不表示可以实现的或者落入权利要求书的保护范围的所有实施例。在整个本公开中使用的术语“示例性”意味着“用作示例、实例或例示”,并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的,具体实施方式包括具体细节。然而,可以在没有这些具体细节的情况下实施这些技术。在一些实例中,为了避免对所描述的实施例的概念造成难以理解,公知的结构和装置以框图形式示出。
本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说,对本公开内容进行的各种修改是显而易见的,并且,也可以在不脱离本公开内容的保护范围的情况下,将本文所定义的一般性原理应用于其它变型。因此,本公开内容并不限于本文所描述的示例和设计,而是与符合本文公开的原理和新颖性特征的最广范围相一致。

Claims (14)

1.一种文本匹配处理方法,包括:
使用至少一个文本匹配规则模板来对待处理文本进行模板匹配;以及输出经过模板匹配后的匹配结果,
其中,所述文本匹配规则模板包括至少一行白名单和至少一行黑名单,所述白名单表示文本匹配规则需要包含的至少一个短语,所述黑名单表示文本匹配规则不能包含的至少一个短语,
在进行模板匹配时,所述待处理文本被配置为与所述文本匹配规则模板中的各个短语进行匹配,所述文本匹配规则模板中的各行名单之间的匹配逻辑关系为与关系,以及所述文本匹配规则模板中的每行名单中的各个短语之间的匹配逻辑关系为或关系。
2.如权利要求1所述的方法,还包括:
获取所述待处理文本。
3.如权利要求1所述的方法,还包括:
对所述待处理文本进行预处理,以去除所述待处理文本中的无效字符。
4.如权利要求1所述的方法,还包括:
使用字典树来对所述待处理文本进行关键词预匹配,以获取所述待处理文本中的与所述字典树匹配的短语,以及
使用至少一个文本匹配规则模板来对所述待处理文本进行模板匹配包括:
使用至少一个文本匹配规则模板来对所获取的与所述字典树匹配的短语进行模板匹配,
其中,所述字典树是基于所有文本匹配规则模板中所包含的经过去重处理后的短语创建的。
5.如权利要求1所述的方法,还包括:
按照预定规则对经过模板匹配后的匹配结果进行整合处理,以及
输出经过模板匹配后的匹配结果包括:
输出经过整合处理后的匹配结果。
6.如权利要求1所述的方法,其中,所述至少一个文本匹配规则模板是采用下述过程获得的:
编辑至少一个文本匹配规则模板;
使用测试文本样本来对所编辑的至少一个文本匹配规则模板进行测试;以及
保存通过所述样本测试的文本匹配规则模板,以用于文本匹配处理。
7.一种文本匹配处理装置,包括:
模板匹配单元,被配置为使用至少一个文本匹配规则模板来对所述待处理文本进行模板匹配;以及
匹配结果输出单元,被配置为输出经过模板匹配后的匹配结果,
其中,所述文本匹配规则模板包括至少一行白名单和至少一行黑名单,所述白名单表示文本匹配规则需要包含的至少一个短语,所述黑名单表示文本匹配规则不能包含的至少一个短语,
在进行模板匹配时,所述待处理文本被配置为与所述文本匹配规则模板中的各个短语进行匹配,所述文本匹配规则模板中的各行名单之间的匹配逻辑关系为与关系,以及所述文本匹配规则模板中的每行名单中的各个短语之间的匹配逻辑关系为或关系。
8.如权利要求7所述的文本匹配处理装置,还包括:
文本获取单元,被配置为获取所述待处理文本。
9.如权利要求7所述的文本匹配处理装置,还包括:
预处理单元,被配置为对所述待处理文本进行预处理,以去除所述待处理文本中的无效字符。
10.如权利要求7所述的文本匹配处理装置,还包括:
字典树创建单元,被配置为基于所有文本匹配规则模板中所包含的经过去重处理后的短语创建字典树;以及
预匹配单元,被配置为使用所述字典树来对所述待处理文本进行关键词预匹配,以获取所述待处理文本中的与所述字典树匹配的短语,以及
所述模板匹配单元被配置为:使用至少一个文本匹配规则模板来对所获取的与所述字典树匹配的短语进行模板匹配。
11.如权利要求7所述的文本匹配处理装置,还包括:
整合处理单元,被配置为按照预定规则对经过模板匹配后的匹配结果进行整合处理,以及
所述匹配结果输出单元被配置为:输出经过整合处理后的匹配结果。
12.如权利要求7所述的文本匹配处理装置,还包括:
模板编辑单元,被配置为编辑至少一个文本匹配规则模板;
模板测试单元,被配置为使用测试文本样本来对所编辑的至少一个文本匹配规则模板进行测试;以及
模板存储单元,被配置为保存通过所述样本测试的文本匹配规则模板,以用于文本匹配处理。
13.一种计算设备,包括:
一个或多个处理器,以及
与所述一个或多个处理器耦合的存储器,所述存储器存储指令,当所述指令被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1到6中任一所述的方法。
14.一种非暂时性机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如权利要求1到6中任一所述的方法。
CN201811241976.2A 2018-10-24 2018-10-24 文本匹配处理方法及装置 Active CN109614463B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811241976.2A CN109614463B (zh) 2018-10-24 2018-10-24 文本匹配处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811241976.2A CN109614463B (zh) 2018-10-24 2018-10-24 文本匹配处理方法及装置

Publications (2)

Publication Number Publication Date
CN109614463A true CN109614463A (zh) 2019-04-12
CN109614463B CN109614463B (zh) 2023-02-03

Family

ID=66001760

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811241976.2A Active CN109614463B (zh) 2018-10-24 2018-10-24 文本匹配处理方法及装置

Country Status (1)

Country Link
CN (1) CN109614463B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674250A (zh) * 2019-08-15 2020-01-10 中国平安财产保险股份有限公司 一种文本匹配方法、装置、计算机系统及可读存储介质

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040205605A1 (en) * 2002-03-12 2004-10-14 International Business Machines Corporation Method and system for stylesheet rule creation, combination, and removal
US20060200336A1 (en) * 2005-03-04 2006-09-07 Microsoft Corporation Creating a lexicon using automatic template matching
CN102053993A (zh) * 2009-11-10 2011-05-11 阿里巴巴集团控股有限公司 一种文本过滤方法及文本过滤系统
US20110264652A1 (en) * 2010-04-26 2011-10-27 Cyberpulse, L.L.C. System and methods for matching an utterance to a template hierarchy
US20130263089A1 (en) * 2012-03-30 2013-10-03 NIIT Technologies Ltd Generating test cases for functional testing of a software application
CN103425741A (zh) * 2013-07-16 2013-12-04 北京中科汇联信息技术有限公司 一种信息展示方法和装置
CN103885934A (zh) * 2014-02-19 2014-06-25 中国专利信息中心 一种专利文献关键短语自动提取方法
US20150278699A1 (en) * 2012-12-10 2015-10-01 Viditeck Ag Rules based data processing system and method
CN105138575A (zh) * 2015-07-29 2015-12-09 百度在线网络技术(北京)有限公司 语音文本串的解析方法和装置
CN106021286A (zh) * 2016-04-29 2016-10-12 东北电力大学 一种基于语言结构的语言理解方法
CN106469076A (zh) * 2015-08-20 2017-03-01 阿里巴巴集团控股有限公司 一种灰度发布方法及装置
CN106844335A (zh) * 2016-12-21 2017-06-13 海航生态科技集团有限公司 自然语言处理方法及装置
US20170270921A1 (en) * 2016-03-15 2017-09-21 SESTEK Ses ve Iletisim Bilgisayar Tekn. San. Ve Tic. A.S. Dialog management system
CN107423279A (zh) * 2017-04-11 2017-12-01 美林数据技术股份有限公司 一种金融信贷短信的信息抽取和分析方法
CN107527619A (zh) * 2017-08-29 2017-12-29 海信集团有限公司 语音控制业务的定位方法及装置
JP2018077850A (ja) * 2016-11-10 2018-05-17 株式会社Nttドコモ 単語正規化方法、単語正規化装置及び機械翻訳方法、機械翻訳装置
US20180143975A1 (en) * 2016-11-18 2018-05-24 Lionbridge Technologies, Inc. Collection strategies that facilitate arranging portions of documents into content collections
CN108363693A (zh) * 2018-02-13 2018-08-03 上海智臻智能网络科技股份有限公司 文本处理方法和装置

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040205605A1 (en) * 2002-03-12 2004-10-14 International Business Machines Corporation Method and system for stylesheet rule creation, combination, and removal
US20060200336A1 (en) * 2005-03-04 2006-09-07 Microsoft Corporation Creating a lexicon using automatic template matching
CN102053993A (zh) * 2009-11-10 2011-05-11 阿里巴巴集团控股有限公司 一种文本过滤方法及文本过滤系统
US20110264652A1 (en) * 2010-04-26 2011-10-27 Cyberpulse, L.L.C. System and methods for matching an utterance to a template hierarchy
US20130263089A1 (en) * 2012-03-30 2013-10-03 NIIT Technologies Ltd Generating test cases for functional testing of a software application
US20150278699A1 (en) * 2012-12-10 2015-10-01 Viditeck Ag Rules based data processing system and method
CN103425741A (zh) * 2013-07-16 2013-12-04 北京中科汇联信息技术有限公司 一种信息展示方法和装置
CN103885934A (zh) * 2014-02-19 2014-06-25 中国专利信息中心 一种专利文献关键短语自动提取方法
CN105138575A (zh) * 2015-07-29 2015-12-09 百度在线网络技术(北京)有限公司 语音文本串的解析方法和装置
CN106469076A (zh) * 2015-08-20 2017-03-01 阿里巴巴集团控股有限公司 一种灰度发布方法及装置
US20170270921A1 (en) * 2016-03-15 2017-09-21 SESTEK Ses ve Iletisim Bilgisayar Tekn. San. Ve Tic. A.S. Dialog management system
CN106021286A (zh) * 2016-04-29 2016-10-12 东北电力大学 一种基于语言结构的语言理解方法
JP2018077850A (ja) * 2016-11-10 2018-05-17 株式会社Nttドコモ 単語正規化方法、単語正規化装置及び機械翻訳方法、機械翻訳装置
US20180143975A1 (en) * 2016-11-18 2018-05-24 Lionbridge Technologies, Inc. Collection strategies that facilitate arranging portions of documents into content collections
CN106844335A (zh) * 2016-12-21 2017-06-13 海航生态科技集团有限公司 自然语言处理方法及装置
CN107423279A (zh) * 2017-04-11 2017-12-01 美林数据技术股份有限公司 一种金融信贷短信的信息抽取和分析方法
CN107527619A (zh) * 2017-08-29 2017-12-29 海信集团有限公司 语音控制业务的定位方法及装置
CN108363693A (zh) * 2018-02-13 2018-08-03 上海智臻智能网络科技股份有限公司 文本处理方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
SHAALAN K 等: "Arabic named entity recognition from diverse text types", 《INTERNATIONAL CONFERENCE ON NATURAL LANGUAGE PROCESSING》 *
史乙力: "基于关键词匹配的网页文本过滤算法的研究和实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
林鸿飞 等: "文本特征区域与文本过滤的匹配机制", 《计算机工程与应用》 *
高良诚等: "客户端垃圾邮件过滤系统", 《安徽建筑工业学院学报(自然科学版)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674250A (zh) * 2019-08-15 2020-01-10 中国平安财产保险股份有限公司 一种文本匹配方法、装置、计算机系统及可读存储介质
CN110674250B (zh) * 2019-08-15 2023-06-23 中国平安财产保险股份有限公司 一种文本匹配方法、装置、计算机系统及可读存储介质

Also Published As

Publication number Publication date
CN109614463B (zh) 2023-02-03

Similar Documents

Publication Publication Date Title
CN111177569B (zh) 基于人工智能的推荐处理方法、装置及设备
US11048762B2 (en) User-defined automated document feature modeling, extraction and optimization
CN109726298B (zh) 适用于科技文献的知识图谱构建方法、系统、终端及介质
CN107992543A (zh) 问答交互方法和装置、计算机设备及计算机可读存储介质
CN107632825A (zh) 一种业务软件开发方法及装置
US10102198B2 (en) Automatic generation of action items from a meeting transcript
CN109272995A (zh) 语音识别方法、装置及电子设备
US20210232630A1 (en) Methods and systems for creating networks
WO2021034376A1 (en) Example based entity extraction, slot filling and value recommendation
CN109117470B (zh) 一种评价文本信息的评价关系提取方法及装置
US10628522B2 (en) Creating rules and dictionaries in a cyclical pattern matching process
CN109614464A (zh) 用于业务问题识别的方法及装置
CN109614463A (zh) 文本匹配处理方法及装置
CN112967721A (zh) 一种基于语音识别技术的销售线索信息识别方法与系统
CN111666408A (zh) 重要条款筛选与展示的方法及装置
CN111563140B (zh) 一种意图识别方法及装置
CA3166556A1 (en) Method and device for generating target advertorial based on deep learning
CN107589965A (zh) 一种软件开发方法及装置
US20220198153A1 (en) Model training
CN115906835A (zh) 一种基于聚类和对比学习的中文问句文本表示学习的方法
CN110046233A (zh) 问题派发方法及装置
US9996795B2 (en) Generating a non-deterministic model of a process for a goal
Sinpang et al. Detecting ambiguity in requirements analysis using Mamdani fuzzy inference
CN106815710A (zh) 待办事项的提示方法及装置、电子设备
CN109885687A (zh) 一种文本的情感分析方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200925

Address after: English genus

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

Effective date of registration: 20200925

Address after: English genus

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: English genus

Applicant before: Advanced innovation technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant