CN112364660B

CN112364660B - 语料文本处理方法、装置、计算机设备及存储介质

Info

Publication number: CN112364660B
Application number: CN202011165995.9A
Authority: CN
Inventors: 杨静远; 赵知纬; 高维国; 陆凯
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2024-05-17
Anticipated expiration: 2040-10-27
Also published as: CN112364660A

Abstract

本发明涉及人工智能领域，涉及一种语料文本处理方法、装置、设备及存储介质。该语料文本处理方法包括获取目标语料文本，对所述目标语料文本进行语义角色标注，得到所述目标语料文本对应的多个携带词序的语义单元；基于所述语义单元和预设规则集，构建与所述目标语料文本对应的正则语义表达式；所述正则语义表达式包括多个正则语义标签；构建与所述正则语义标签对应的语义词典基于所述正则语义表达式和所述语义词典，生成与所述目标语料文本对应的正则语义模板。该语料文本处理方法有效避免传统的关键词匹配或正则表达式匹配在构建挖掘模板时采用字面表达的方式所导致执行效率低的问题。本发明还涉及数字医疗，应用于机器人在线医疗咨询和问诊。

Description

语料文本处理方法、装置、计算机设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种语料文本处理方法、装置、计算机设备及存储介质。

背景技术

随着信息时代的飞速发展，以深度学习为核心的人工智能技术日益成为新一轮产业革命的重要引擎。其中，自然语言处理(Natural Language Processing，NLP)则是人工智能技术的一代表性领域，目的是使计算机正确处理人类语言，并与人类进行交互。

但自然语言处理需要从线上挖掘大量的语料数据对深度学习模型进行训练，传统语料挖掘方法包括关键词匹配和正则表达式匹配。不同的挖掘方式在进行语料挖掘前，均需要构建对应的挖掘规则或挖掘模板，而对于关键词匹配所构建的挖掘模板，由于无法考虑每一关键词的词序，导致在进行语料挖掘时，会得到多个存在语病的文本，准确率较低。对于正则表达式匹配所构建的模板，虽然可以控制词序，但对于语义相近的关键词，只能通过替换不同的关键词进行组合，以生成大量的正则表达式模板，而在进行匹配时，需要遍历每一正则表达式模板进行匹配，效率较低。

发明内容

本发明实施例提供一种语料文本处理方法、装置、计算机设备及存储介质，以解决传统语料挖掘方法的匹配效率低且准确率不高的问题。

一种语料文本处理方法，包括：

获取目标语料文本，对所述目标语料文本进行语义角色标注，得到所述目标语料文本对应的多个携带词序的语义单元；

基于所述语义单元和预设规则集，构建与所述目标语料文本对应的正则语义表达式；所述正则语义表达式包括多个正则语义标签；

构建与所述正则语义标签对应的语义词典；所述语义词典为包含多个与所述正则语义标签的语义相近的关联词的词典；

基于所述正则语义表达式和所述语义词典，生成与所述目标语料文本对应的正则语义模板。

一种语料文本处理装置，包括：

语义角色标签模块，用于获取目标语料文本，对所述目标语料文本进行语义角色标注，得到所述目标语料文本对应的多个携带词序的语义单元；

正则语义表达式构建模块，用于基于所述语义单元和预设规则集，构建与所述目标语料文本对应的正则语义表达式；所述正则语义表达式包括多个正则语义标签；

语义词典构建模块，用于构建与所述正则语义标签对应的语义词典；所述语义词典为包含多个与所述正则语义标签的语义相近的关联词的词典；

正则语义模板生成模块，用于基于所述正则语义表达式和所述语义词典，生成与所述目标语料文本对应的正则语义模板。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述语料文本处理方法的步骤。

一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述语料文本处理方法的步骤。

上述语料文本处理方法、装置、计算机设备及存储介质中，通过对目标语料文本中的不同句式进行语义角色标注，并得到每一句式对应的多个携带词序的语义单元，以通过语义表达的方式表达文本中的关键词，然后再将语义单元进行符号化处理，即将语义单元与特征字符以及匹配模式相结合，构建正则语义表达式，以将语义单元符号化，实现抽象化表达某一句式，不再局限于具体的字面表达，极大的扩展了挖掘模板的表达范围和边界，可有效避免传统的关键词匹配或正则表达式匹配在构建挖掘模板时采用字面表达的方式所导致执行效率低的问题。最后，通过构建与正则语义标签对应的语义词典，再根据语义词典和正则语义表达式，生成正则语义模版，以扩充模板的表达范围，提高模板的泛化性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中语料文本处理方法的一应用环境示意图；

图2是本发明一实施例中语料文本处理方法的一流程图；

图3是步骤S202的一具体流程图；

图4是图2中步骤S203的一具体流程图；

图5是图2中步骤S203的一具体流程图；

图6是图5中步骤S501的一具体流程图；

图7是本发明一实施例中语料文本处理方法的一流程图；

图8是本发明一实施例中语料文本处理方法的一流程图；

图9是本发明一实施例中语料文本处理装置的一示意图；

图10是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

该语料文本处理方法可应用在如图1的应用环境中，其中，计算机设备通过网络与服务器进行通信。计算机设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器来实现。

在一实施例中，如图2所示，提供一种语料文本处理方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S201：获取目标语料文本，对目标语料文本进行语义角色标注，得到目标语料文本对应的多个携带词序的语义单元。

其中，目标语料文本可通过采集线上业务数据获取，或者通过大数据平台中获取，此处不做限定。该目标语料文本可包含多个不同的句式，本案可针对不同的句式构建正则语义模板，此处以对某一句式构建正则语义模板为例进行说明。语义单元是目标预料文本中的语义表达单元。语义角色标注(Semantic Role Labeling,简称SRL)是一种浅层的语义分析。给定一个句子，SRL的任务是找出句子中谓词的相应语义角色成分，包括核心语义角色(如施事者、受事者等)和附属语义角色(如地点、时间、方式、原因等)。

具体地，根据句子中的谓词和变元之间不同的语义关系把变元(与谓词有直接关系并受谓词支配的语义成分)分出的不同的类型即为语义角色(即语义单元)。具体地，在进行语义角色标注时，会按照文本中的字符顺序进行标注，即得到多个携带词序的多个语义单元，以通过该多个语义单元表达某一句式中的语义。

具体地，对目标预料文本进行语义角色标注时，可按照采用BIO标注的方法给该目标语料文本进行语义角色标注，B代表语义单元的开始，I代表语义单元的中间，O代表语义单元结束。将它所包含的第一个语义单元赋予标签B，将它所包含的其他语义单元赋予标签I，不属于任何论元的语义单元赋予标签O。示例性地，对于目标语料文本即“张/老师/教/数学/课。”，对该句式进行语义角色标注，则会对应得到如下标注序列，即B-Teacher、I-Teacher、B-Teach、B-class、I-class，O，其中，多个携带词序的语义单元即为Teacher-Teach-class。

可以理解地，也可采用其他能够实现序列标注的序列标注模型对目标语料文本进行语义角色标注，如隐马尔科夫模型、条件随机场模型等等，此处不一一列举。

S202：基于语义单元和预设规则集，构建与目标语料文本对应的正则语义表达式；正则语义表达式包括多个正则语义标签。

其中，预设规则集中存储有模式运算符，用于限定正则语义表达式的匹配模式。该匹配模式包括但不限于贪婪匹配模式(模式运算符为：“.*”)、非贪婪匹配模式(模式运算符为：“.*？”)等。正则语义表达式是指通过正则语义标签结合匹配模式，用于表达对字符串的过滤逻辑。正则语义标签是指语义单元结合特殊字符的一种模式描述。该特殊字符可包括但不限于“[]”、“()”等。

示例性地，根据步骤S201得到的语义单元即Teacher-Teach-class，将其与特殊字符[]进行结合，得到正则语义标签[Teacher]-[Teach]-[class]，再将正则语义标签与匹配模式对应的模式运算符(.*)进行结合，以构建正则语义表达，如[Teacher].*[Teach].*[class]。其中，中括号是用于匹配中括号内任一字符的特殊字符。中括号中的语义单元Teacher为一语义表达变量，用于指示一语义词典，正则语义标签[Teacher]所表达的含义为匹配中括号中语义单元Teacher对应的语义词典中的任一关联词。

具体地，在得到正则语义表达式后，即确定了字符串的过滤逻辑后，还需要为每一正则语义标签构建语义词典，以便根据按照上述指定的过滤逻辑，匹配语义词典中的任意关联词，无需构建多个字面表达的挖掘模板。

可以理解地，由于传统的正则表达式匹配在构建挖掘模板时采用字面表达的方式，如对于句式“某(X)老师教某(X)课”在构建挖掘模板时，可通过如下正则表达式“.*老师.*教.*课”进行表达，而采用该种字面表达的方式，若增加多个新增词，如讲师、导师，则需要重构上述正则表达式得到如下多个匹配模版：“.*老师.*教.*课”，“.*讲师.*教.*课”，“.*导师.*教.*课”，在后续进行匹配时需要遍历执行这三个挖掘模板进行匹配，执行效率大大降低。

本实施例中，通过构建正则语义表达式，以将句式结构中的关键词进行语义表达，实现抽象化表达某一句式，无需构建多个字面表达的正则表达式(即挖掘模板)，可有效避免传统的正则表达式匹配在构建挖掘模板时采用字面表达的方式所导致的效率低的问题。

S203：构建与正则语义标签对应的语义词典；语义词典为包含多个与正则语义标签的语义相近的关联词的词典。

其中，语义词典中包含有与正则语义标签所表达的语义相同的多个关联词。通过构建正则语义标签关联的语义词典，以将正则语义表达式与关联词解耦，在对正则语义表达式所表达的句式下，新增关键词时，无需与其他关键词重组，构建多个正则表达式，只需更新语义词典即可，方便对正则语义模板进行管理；此外，在后续采用该正则语义模板时，只需采用正则语义模板匹配一次，无需执行多个正则表达式即可从待挖掘的文本中提取所需的句子，大大提高了匹配效率。

S204：基于正则语义表达式和语义词典，生成与目标语料文本对应的正则语义模板。

具体地，通过将语义词典与正则过表达式关联即可生成多个不同句式结构对应的正则语义模板。通过在目标语料文本中挖掘多个正则语义模板，以供用户直接调用或自定义编辑。

本实施例中可从目标语料文本中挖掘多个正则语义模板，以便用户选择所需的正则语义模板进行语料挖掘，实现在控制关键词语序的基础上，同时考虑关键词的语义表达。通过将语义单元替换为正则语义标签的符号化表达，

并构建每一正则语义标签对应的语义词典，使该正则语义标签可映射为语义词典中多个与正则语义标签的语义相近的关联词，以便后采用正则语义模板匹配某一句式时，只需执行一次该正则语义模板，无需遍历多个正则表达式进行匹配，即可匹配多个语义相近的句式，可显著提高匹配效率。

在一实施例中，如图3所示，步骤102中，即基于语义单元和预设规则集，构建与目标语料文本对应的正则语义表达式，具体包括如下步骤：

S301：获取预设正则表达式模板；预设正则表达式模板包括语义单元填充位以及运算符位。

其中，预设正则表达式模板是预先设定的正则表达式模板，该模板包括语义单元填充位和运算符位该语义单元填充位包括一预设特殊字符，用于填充语义单元。该预设特殊字符是预先设定的特殊字符，如“[]”、“()”。运算符位用于填充模式运算符，如“.*”、“.*？”。

示例性地，假设预设正则表达式模板为[]-[]-[]。预设特殊字符[]即指示语义单元填充位。符号“-”即指示运算符位。

S302：将语义单元按照词序填充至语义单元填充位。

具体地，通过将语义单元按照词序填充至语义单元填充位，即可将语义单元转换为正则语义标签的表达。示例性地，假设预设正则表达式模板为[]-[]-[]，步骤S201得到的携带词序语义单元Teacher-Teach-class，按照语义单元的词序将其填充至预设正则表达式模板中，即以将语义单元转换为正则语义标签的表达[Teacher]-[Teach]-[class]。

S303：从预设规则集中依序或随机选取模式运算符填充至运算符位，以构建与目标语料文本对应的正则语义表达式。

示例性地，对于正则语义标签表达的语义单元，如[Teacher]-[Teach]-[class]，(符号“-”为运算符位)，通过填充该运算符位，即可构建一正则语义表达式。

可以理解地，从预设规则集中依序或随机选取任意一种模式运算符填充至运算符位，即可构建与目标语料文本对应的正则语义表达式，如[Teacher].*[Teach].*[class]、[Teacher].*？[Teach].*？[class]、[Teacher].*[Teach].*？[class]等等，此处不一一列举。

本实施例中，通过自动填充预设正在表达式模板，已无需用户手动添加或编辑，大大提高了正则语义模板的创建效率，节省时间。

在一实施例中，如图4所示，正则语义标签对应一基准词；步骤S103中，即构建与正则语义标签对应的语义词典，具体包括如下步骤：

S401：采用近义词库对基准词进行分析，获取至少一个关联词。

其中，基准词即为目标语料文本中该正则语义标签中语义单元对应的关键词，例如张/老师/教/数学/课，其对应的正则语义标签为[Teacher]-[Teach]-[class]，其中，语义单元Teacher对应的关键词(也即基准词)为“老师”。

近义词库是指开源的同义词库，如HowNet。HowNet是一个世界知识描述的庞大词典可以用于词语相似的的计算。具体地，通过该近义词库对基准词进行分析，以获取与基准词的语义相同或相似的多个关联词(如：老师(基准词)->导师(关联词))，通过自动构建语义词典，无需人工枚举关键词，大大提高挖掘模板的构建效率。

S402：基于基准词与关联词，构建正则语义标签关联的语义词典。

具体地，服务器会预先创建每一正则语义标签对应的初始词典，该初始词典用于存储基准词以及与该基准词对应的至少一个关联词。本实施例中，通过将基准词和关键词存储在正则语义标签对应的语义词典中，即可构建正则语义标签关联的语义词典。

在一实施例中，如图5所示，正则语义标签对应一基准词；步骤S103中，即构建与正则语义标签对应的语义词典，具体包括如下步骤：

S501：对目标语料文本进行分词，获取至少一个分割词。

具体地，可采用词库分词法对目标语料文本进行分词，即按照某种算法构造词，然后去匹配已建好的词库集合，如果匹配到就切分出来成为分割词，其分词过程简单，容易实现。其中，词库分词法包括最大正向匹配的算法和最大逆向匹配的算法。本实施例中，采用最大逆向匹配的算法对目标语料文本进行分词，获取多个分割词。最大逆向匹配的算法是用于对中文进行分词的算法，该算法具有准确率高、算法复杂度低的优点。

具体地，首先需设定句子切分的最大长度(即预设切分长度)MAX；将目标语料文本拆分为多个句子，具体可按照预设结束符进行划拆分；再对每一句子按照从右往左的顺序开始切分，得到待匹配字符串；然后将该待匹配字符串和词库进行比对，若词库中包含有该待匹配字符串就记录下来，形成一分割词，否则通过将待匹配字符串减少一个单字，继续比较，直至剩下一个单字则停止切分，获取多个分割词。

S502：对基准词和分割词进行语义相似度分析，获取至少一个关联词。

其中，通过分别基准词和分割词转换为词向量，以通过计算这两个词向量间的距离，判断分割词是否与基准词语义相近，若语义相近，则将该分割词作为关联词。由于有词向量具有良好的语义特性，是表示词语特征的常用方式，通过将单词以词向量的形式进行表示，以便后续采用该词向量进行语义相似度分析，方便运算。

具体地，可将基准词和分割词分别输入至词向量转换函数中，即可获取对应的词向量。该词向量转换函数可采用word2vec函数。word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练，该工具得到的训练结果即为词向量(word embedding)，可以很好地度量词与词之间的相似性。

具体地，可通过计算词向量间的余弦相似度，以通过向量间的余弦相似度作为基准词与分割词的相似性的度量维度。可以理解地，若计算得到的余弦相似度大于一预设阈值，则认为该分割词与基准词语义相似，则将该分割词作为关联词。

S503：基于基准词与关联词，构建正则语义标签关联的语义词典。

本实施例中，通过近义词库和/或语义相似度分析的方式构建语义词典，以实现自动构建语义词典，无需用户大量查阅资料，手动枚举关键词，大大节省正则语义模板的创建效率；且有效解决人工线下查找的数据量有限的问题，提高了语义词典中的词汇量，从而保证后续采用正则语义模板进行语料挖掘的精度。

在一实施例中，如图6所示，步骤S501中，即对目标语料文本进行分词，获取至少一个分割词，具体包括如下步骤：

S601：基于预设结束符，将目标语料文本拆分为多个待切分句子。

其中，预设结束符是指预先设定好的句子结束符，如：？。，！。示例性地，若预设结束符为“。”，则对目标语料文本按照从首字符开始，逐一读取每一字符并存储，直到所读取的字符为预设结束符“。”结束，将之前存储的多个字符串作为待切分句子，然后继续将预设结束符后的下一字符作为首字符，读取后续的多个字符，直到所读取的字符为预设结束符“。”，不断重复执行上述步骤，直到读取到目标语料文本的最后一个字符停止，得到多个待切分句子。

S602：按照预设切分长度对待切分句子进行切分，得到待匹配字符串。

其中，预设切分长度是预先设定的句子的最大切分长度。具体地，按照预设切分长度对待切分句子进行切分，即将每一待切分句子，按照从左向右或从右向左的顺序进行切分，以得到预设切分长度的待匹配字符串。

S603：将待匹配字符串与预设分词库进行比对；

S604：当预设分词库中存在待匹配字符串，则将待匹配字符串作为分割词，并更新待切分句子。

其中，预设分词库是开发人员会预先设定好的中文词库，为后续字符串切分提供技术支持。中文词库(以下简称“词库”)是用于对中文字符进行分词的词库。

S605：当更新后的待切分句子的句子长度不大于预设切分长度，则将待切分句子作为待匹配字符串重复执行将待匹配字符串与预设分词库进行比对的步骤；

S606：当更新后的待切分句子的句子长度大于预设切分长度，则重复执行按照预设切分长度对待切分句子进行切分，得到待匹配字符串的步骤；

S607：当预设分词库中不存在待匹配字符串，则将待匹配字符串减少一单字，获取更新后的待匹配字符串，重复执行将待匹配字符串与预设分词库进行比对的步骤，直至待切分句子的句子长度为1。

示例性地，假设预设切分长度MAX＝5，输入的待切分句子为“我一个人回家”，假设按照从右往左的顺序开始切分，获取待匹配字符串即“一个人回家”；在词库中没有该词，则减少一个单字即“一”，此时，待匹配字符串更新为“个人回家”；在词库中没有该词，则继续减少一个单字“个”，待匹配字符串更新为“人回家”；在词库中没有该词则减少一个单字即“人”，待匹配字符串更新为“回家”；在词库中存在该词即“回家”，将该词记录下来，获取一分割词。此时，待切分句子更新为“我一个人”，句子长度不大于预设切分长度，则执行步骤S603，在词库中没有该词，则减少一个单字即“我”，更新为“一个人”；在词库中没有该词，则继续减少一个单字“一”，更新为“个人”；在词库中存在该词即“个人”，将该词记录下来，获取一分割词。此时待切分句子更新为“我一”，在词库中没有该词，则减少一个单字即“我”，更新为“一”；在词库中存在该词即“一”，将该词记录下来，获取另一分割词。此时待切分句子的句子长度为1，即只剩下一个单字“我”，算法终止。最终，采用最大逆向匹配的算法对于句子“我一个人回家”的分词结果为“我/一/个人/回家”。

在一实施例中，正则语义标签对应一基准词，如图7所示，步骤S105之后，该语料文本处理方法还包括如下步骤：

S701：定时采集业务语料数据。

其中，业务语料数据是指线上业务的语言材料。可以理解地，该业务语料数据式动态变化的，故本实施例中可定时采集业务语料数据，并对其进行切词以及相似度比较等处理，以更新语义词典。

S702：对业务语料数据进行分词，获取多个词元。

其中，词元即为业务语料数据的分词结果。具体地，步骤S702中的分词处理与步骤S501保持一致，为避免重复，此处不做限定。

S703：采用自然语言处理技术对每一词元与基准词进行语义分析，获取词元对应的语义分析结果。

其中，自然语言处理(Natural Language Processing，NLP)是计算机以一种聪明而有用的方式分析、理解和从人类语言中获取意义的一种方式。通过利用NLP技术，开发者可以组织和构建知识体系来执行自动摘要、翻译、命名实体识别、关系提取、情感分析、语音识别和话题分割等任务。本实施例中，可采用开源NLP技术所提供的语义分析接口传入数据以进行语义分析对比。具体地，将每一词元和基准词输入到语义分析接口中进行语义分析，获取语义分析接口返回的语义分析结果。

S704：将语义分析结果为相似的词元作为新增词，并将新增词存储至语义标签对应的语义词典中，以更新语义词典。

其中，新增词可由用户根据实际需求录入，或者通过定时采集线上语料数据，并对线上语料进行分词处理，得到多个词元，并将每一词元与语义词典中的多个关联词进行语义相似度分析，确定多个新增词，再将该新增词存储至对应的语义词典中，以更新语义词典。可以理解地，正则语义模板中的语义标签和语义词典与正则语义模板解耦，可根据用实际需求进行自定义更改或编辑，无需枚举或随机组合关键词，以形成多个不同的句式对应的挖掘模板，大大提高模板构建效率。

示例性地，句式“某(X)老师教某(X)课”对应的正则语义模板为[Teacher].*[Tech].*[Class]，其中的正则语义标签为[Teacher]、[Tech]、[Class]，正则语义标签[Teacher]对应一语义词典为(老师，教授，导师，讲师)，[Tech]对应一语义词典为(教，讲授，讲解，教学)，在当前的正则语义模板的基础上，若要增加关键词，无需重新构建正则语义模板，只需更新语义词典即可，如[Teacher]对应一语义词典为(老师，教授，导师，讲师)，若需增加一新增词“教师”，此时正则语义模板不变，只需更新语义词典为(老师，教授，导师，讲师，教师)，正则语义标签[Teacher]则表达为：老师|教授|导师|讲师|教师。

可以理解地，对于传统的正则匹配模式下，若需要新增关键词，则需要将该新增的关建词与其他已有的词进行多次的组合形成多个正则表达式，例如，某(X)老师教某(X)课,用正则表达式表达为：.*老师.*教.*课，、.*老师.*讲授.*课,、.*教授.*教.*课、.*教授.*讲授.*课、.*导师.*教.*课、.*导师.*讲授.*课；若新增词为“讲师”，则需要重新构建多个正则表达式(即挖掘模板)，即.*讲师.*教.*课、.*讲师.*讲授.*课。且在进行字符串匹配时，需要执行上述每一正则表达式进行字符串匹配，效率大大降低，而本实施例中无需重新构建正则语义模板，只需更新语义词典即可，且在后续进行字符串匹配时，执行一遍正则语义模板即可，无需执行多个正则表达式，匹配效率大大提升。

在一实施例中，如图8所示，步骤S102之后，该语料文本处理方法还包括如下步骤：

S801：获取目标语料文本，对目标语料文本进行语义角色标注，得到目标语料文本对应的多个携带词序的语义单元。

具体地，步骤S801与步骤S201的执行步骤保持一致，为避免重复，此处不再赘述。

S802：基于语义单元和预设规则集，构建与目标语料文本对应的正则语义表达式；正则语义表达式包括多个正则语义标签。

具体地，步骤S802与步骤S202的执行步骤保持一致，为避免重复，此处不再赘述。

S803：获取预先创建好的语义标签库。

其中，语义标签库是预先创建的用于存储与正则语义标签具备等价关系的多个等价标签。可以理解地，对于部分正则语义标签(例如地点)由于其表述的复杂性，本实施例中采用等价模板的方式指定与正则语义标签具有等价含义的多个正则语义标签(即等价标签)。

具体地，对于地点为颐和园的正则语义标签[Scenic]来说，颐和园有多种命名方式，例如北京颐和园、海淀颐和园和中国颐和园，而其所表达的地点含义均为颐和园。故此处可对颐和园对应的正则语义标签[Scenic]设置多个等价标签，即[Scenic]＝[City][Scenic]＝[District][Scenic]＝[Country][Scenic](其中，[City][Scenic]、[District][Scenic]以及[Country][Scenic]即为等价标签)，以在后续匹配时还可对等价标签所表达的语义进行匹配，提高正则语义模板的泛化性。

S804：判断语义标签库中是否存在正则语义标签对应的等价标签。

S805：若语义标签库中存在等价标签，则构建等价标签与正则语义标签的等价关系，以使正则语义表达式携带等价关系。

其中，构建等价标签与正则语义标签的等价关系，即将等价标签与正则语义标签通过等价符号关联，以使后续在执行正则语义标签过滤逻辑的同时，执行执行等价标签对应的过滤逻辑。通过构建等价标签与正则语义标签的等价关系，以使正则语义表达式携带该等价关系。

S806：构建与正则语义标签对应的语义词典。

具体地，步骤S806与步骤S203的执行步骤保持一致，为避免重复此处不再赘述。

S807：基于携带等价关系的正则语义表达式和语义词典，生成与目标语料文本对应的正则语义模板。

示例性地，假设[City][Scenic]＝[District][Scenic]＝[Country][Scenic]为正则语义标签[Scenic]对应的等价标签，每一等价标签[City][Scenic]、[District][Scenic]以及[Country][Scenic]均对应一词典，如[City][Scenic]＝(北京、……)(颐和园)、[District][Scenic]＝(海淀区、……)(颐和园)、[Country][Scenic]＝(中国、……)(颐和园)，以通过语义词典和携带等价关系的正则语义表达式(此时正则表达式中的正则语义标签与等价标签关联，等价标签可映射一词典)，生成正则语义模板。

本实施例中，若语义标签库中包含有等价标签，则将该等价标签与正则语义标签建立等价关系，以便后续在通过正则语义模板进行匹配字符串时，可基于正则语义模板中正则语义标签与等价标签的等价关系，在执行正则语义标签所表达的过滤逻辑的同时，执行等价标签对应的过滤逻辑，以同时将等价标签对应的句式匹配得到，提高正则语义模板的泛化性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种语料文本处理装置，该语料文本处理装置与上述实施例中语料文本处理方法一一对应。如图9所示，该语料文本处理装置包括语义角色标签模块10、正则语义表达式构建模块20、语义词典构建模块30和正则语义模板生成模块40。各功能模块详细说明如下：

语义角色标签模块10，用于获取目标语料文本，对目标语料文本进行语义角色标注，得到目标语料文本对应的多个携带词序的语义单元。

正则语义表达式构建模块20，用于基于语义单元和预设规则集，构建与目标语料文本对应的正则语义表达式；正则语义表达式包括多个正则语义标签。

语义词典构建模块30，用于构建与正则语义标签对应的语义词典；语义词典为包含多个与正则语义标签的语义相近的关联词的词典。

正则语义模板生成模块40，用于基于正则语义表达式和语义词典，生成与目标语料文本对应的正则语义模板。

具体地，正则语义标签对应一基准词；语义词典构建模块包括近义词分析单元和语义词典构建单元。

近义词分析单元，用于采用近义词库对基准词进行分析，获取至少一个关联词。

语义词典构建单元，用于基于基准词与关联词，构建正则语义标签关联的语义词典。

具体地，正则语义标签对应一基准词；语义词典构建模块包括分词单元、相似度分析单元和语义词典构建单元。

分词单元，用于对目标语料文本进行分词，获取至少一个分割词。

相似度分析单元，用于对基准词和分割词进行语义相似度分析，获取至少一个关联词。

具体地，分词单元包括文本拆分子单元、切分子单元、第一处理子单元、第二处理子单元、第三处理子单元和第四处理子单元。

文本拆分子单元，用于基于预设结束符，将目标语料文本拆分为多个待切分句子。

切分子单元，用于按照预设切分长度对待切分句子进行切分，得到待匹配字符串。

字符串比对子单元，用于将待匹配字符串与预设分词库进行比对。

第一处理子单元，用于当预设分词库中存在待匹配字符串，则将待匹配字符串作为分割词，并更新待切分句子。

第二处理子单元，用于当更新后的待切分句子的句子长度不大于预设切分长度，则将待切分句子作为待匹配字符串重复执行将待匹配字符串与预设分词库进行比对的步骤。

第三处理子单元，用于当更新后的待切分句子的句子长度大于预设切分长度，则重复执行按照预设切分长度对待切分句子进行切分，得到待匹配字符串的步骤。

第四处理子单元，用于当预设分词库中不存在待匹配字符串，则将待匹配字符串减少一单字，获取更新后的待匹配字符串，重复执行将待匹配字符串与预设分词库进行比对的步骤，直至待切分句子的句子长度为1。

具体地，该语料文本处理装置还包括定时数据采集模块、分词模块、语义分析模块和语义词典更新模块。

定时数据采集模块，用于定时采集业务语料数据。

分词模块，用于对业务语料数据进行分词，获取多个词元。

语义分析模块，用于采用自然语言处理技术对每一词元与基准词进行语义分析，获取词元对应的语义分析结果。

语义词典更新模块，用于将语义分析结果为相似的词元作为新增词，并将新增词存储至语义标签对应的语义词典中，以更新语义词典。

具体地，该语料文本处理装置还包括语义标签库获取模块、等价标签判断模块、等价关系构建模块和正则语义模板生成模块。

语义标签库获取模块，用于获取预先创建好的语义标签库。

等价标签判断模块，用于判断语义标签库中是否存在正则语义标签对应的等价标签。

等价关系构建模块，用于若语义标签库中存在等价标签，则构建等价标签与正则语义标签的等价关系，以使正则语义表达式携带等价关系。

正则语义模板生成模块，用于基于携带等价关系的正则语义表达式和语义词典，生成与目标语料文本对应的正则语义模板。

关于语料文本处理装置的具体限定可以参见上文中对于语料文本处理方法的限定，在此不再赘述。上述语料文本处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括计算机存储介质、内存储器。该计算机存储介质存储有操作系统、计算机程序和数据库。该内存储器为计算机存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储执行语料文本处理方法过程中生成或获取的数据，如正则语义模板。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语料文本处理方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中的语料文本处理方法的步骤，例如图2所示的步骤S201-S204，或者图3至图8中所示的步骤。或者，处理器执行计算机程序时实现语料文本处理装置这一实施例中的各模块/单元的功能，例如图9所示的各模块/单元的功能，为避免重复，这里不再赘述。

在一实施例中，提供一计算机存储介质，该计算机存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中语料文本处理方法的步骤，例如图2所示的步骤S201-S204，或者图3至图8中所示的步骤，为避免重复，这里不再赘述。或者，该计算机程序被处理器执行时实现上述语料文本处理装置这一实施例中的各模块/单元的功能，例如图9所示的各模块/单元的功能，为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种语料文本处理方法，其特征在于，包括：

基于所述正则语义表达式和所述语义词典，生成与所述目标语料文本对应的正则语义模板；

所述预设规则集包括多个模式运算符；

所述基于所述语义单元和预设规则集，构建与所述目标语料文本对应的正则语义表达式，包括：

获取预设正则表达式模板；所述预设正则表达式模板包括语义单元填充位以及运算符位；

将所述语义单元按照所述词序填充至所述语义单元填充位；

从所述预设规则集中依序或随机选取所述模式运算符填充至所述运算符位，以构建与所述目标语料文本对应的正则语义表达式；

所述基于所述正则语义表达式和所述语义词典，生成与所述目标语料文本对应的正则语义模板包括：

将所述语义词典与所述正则语义表达式关联生成多个不同句式结构对应的正则语义模板；

在所述目标语料文本中挖掘多个正则语义模板，供用户直接调用或自定义编辑。

2.如权利要求1所述语料文本处理方法，其特征在于，所述正则语义标签对应一基准词；

所述构建与所述正则语义标签对应的语义词典，包括：

采用近义词库对所述基准词进行分析，获取至少一个关联词；

基于所述基准词与所述关联词，构建所述正则语义标签关联的语义词典。

3.如权利要求1所述语料文本处理方法，其特征在于，所述正则语义标签对应一基准词；

所述构建与所述正则语义标签对应的语义词典，包括：

对所述目标语料文本进行分词，获取至少一个分割词；

对所述基准词和所述分割词进行语义相似度分析，获取至少一个关联词；

4.如权利要求3所述语料文本处理方法，其特征在于，所述对所述目标语料文本进行分词，获取至少一个分割词，包括：

基于预设结束符，将所述目标语料文本拆分为多个待切分句子；

按照预设切分长度对所述待切分句子进行切分，得到待匹配字符串；

将所述待匹配字符串与预设分词库进行比对；

当所述预设分词库中存在所述待匹配字符串，则将所述待匹配字符串作为所述分割词，并更新所述待切分句子；

当更新后的待切分句子的句子长度不大于所述预设切分长度，则将所述待切分句子作为待匹配字符串，重复执行所述将所述待匹配字符串与预设分词库进行比对的步骤；

当更新后的待切分句子的句子长度大于所述预设切分长度，则重复执行所述按照预设切分长度对所述待切分句子进行切分，得到待匹配字符串的步骤；

当所述预设分词库中不存在所述待匹配字符串，则将所述待匹配字符串减少一单字，获取更新后的待匹配字符串，重复执行所述将所述待匹配字符串与预设分词库进行比对的步骤，直至所述待切分句子的句子长度为1。

5.如权利要求1所述语料文本处理方法，其特征在于，所述正则语义标签对应一基准词；

在所述基于所述正则语义表达式和所述语义词典，生成与所述目标语料文本对应的正则语义模板的步骤之后，所述语料文本处理方法还包括：

定时采集业务语料数据；

对所述业务语料数据进行分词，获取多个词元；

采用自然语言处理技术对每一所述词元与所述基准词进行语义分析，获取所述词元对应的语义分析结果；

将所述语义分析结果为相似的词元作为新增词，并将所述新增词存储至所述语义标签对应的语义词典中，以更新所述语义词典。

6.如权利要求1所述语料文本处理方法，其特征在于，在所述基于所述语义单元和预设规则集，构建与所述目标语料文本对应的正则语义表达式的步骤之后，所述语料文本处理方法还包括：

获取预先创建好的语义标签库；

判断所述语义标签库中是否存在所述正则语义标签对应的等价标签；

若所述语义标签库中存在所述等价标签，则构建所述等价标签与正则语义标签的等价关系，以使所述正则语义表达式携带所述等价关系；

所述基于所述正则语义表达式和所述语义词典，生成与所述目标语料文本对应的正则语义模板，包括：

基于所述携带等价关系的正则语义表达式和所述语义词典，生成与所述目标语料文本对应的正则语义模板。

7.一种语料文本处理装置，所述装置用于实现如权利要求1-6任一项所述语料文本处理方法，其特征在于，包括：

8.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述语料文本处理方法的步骤。

9.一种计算机存储介质，所述计算机存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述语料文本处理方法的步骤。