CN112000767A

CN112000767A - 一种基于文本的信息抽取方法和电子设备

Info

Publication number: CN112000767A
Application number: CN202010759112.0A
Authority: CN
Inventors: 杨志明
Original assignee: Deep Thinking Of Artificial Intelligence Technology Shanghai Co ltd
Current assignee: Deep Thinking Of Artificial Intelligence Technology Shanghai Co ltd
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2020-11-27

Abstract

本申请公开了一种基于文本的信息抽取方法和电子设备，包括：对于文本中的每一行语句L_i，对该行语句L_i进行纠错处理后，确定纠错后的语句与预设知识库中每条信息的相似度，并根据所述相似度，确定该行语句L_i对应的所述信息的候选集合；根据所述候选集合中每条信息对应的所述相似度以及与该行语句L_i之间的长度差，按照相似度优先的原则，确定所述候选集合中与该行语句L_i相匹配的信息。应用本申请公开的技术方案，能够自动、准确地从文本中提取出预设信息。

Description

一种基于文本的信息抽取方法和电子设备

技术领域

本申请涉及计算机应用技术领域，特别涉及一种基于文本的信息抽取方法和电子设备。

背景技术

目前，为了确保客户服务质量，很多企业需要对客服人员的服务水平进行监管。在该监管过程中，需要对客服人员与客户之间的交互内容进行合规性审查，以对客服人员的服务水平进行评测。例如，审查客服人员是否在与客户的交互中向客户提出了客户调研要求提出的所有问题。

目前尚未提出一种智能化的信息提取方法，以满足企业的上述监管需要。

发明内容

有鉴于此，本发明的主要目的在于提供一种基于文本的信息抽取方法和电子设备，能够自动、准确地从文本中提取出预设信息。

为了达到上述目的，本发明实施例提出的技术方案为：。

一种基于文本的信息抽取方法，包括：

对于文本中的每一行语句L_i，对该行语句L_i进行纠错处理后，确定纠错后的语句与预设知识库中每条信息的相似度，并根据所述相似度，确定该行语句L_i对应的所述信息的候选集合；

根据所述候选集合中每条信息对应的所述相似度以及与该行语句L_i之间的长度差，按照相似度优先的原则，确定所述候选集合中与该行语句L_i相匹配的信息。

较佳地，利用字位置匹配的方式和拼音位置匹配的方式，确定纠错后的语句与所述知识库中每条信息的相似度。

较佳地，所述确定纠错后的语句与预设知识库中每条信息的相似度，并根据所述相似度，确定该行语句L_i对应的所述信息的候选集合包括：

对于知识库中的每条信息M_j，按照字位置匹配的方式，计算所述语句L_i与该条信息M_j的字匹配相似度；如果所述字匹配相似度大于等于预设的字匹配相似度阈值，则将所述字匹配相似度，确定为所述语句L_i与该条信息M_j的相似度，并将该条信息M_j加入所述候选集合；否则，按照拼音位置匹配的方式，计算所述语句L_i与该条信息M_j的拼音匹配相似度，如果所述拼音匹配相似度大于等于预设的拼音匹配相似度阈值，则从所述字匹配相似度和所述拼音匹配相似度中选择出最大值，作为所述语句L_i与该条信息M_j的相似度，并将该条信息M_j加入所述候选集合。

较佳地，所述字匹配相似度阈值大于所述拼音匹配相似度阈值。

较佳地，所述按照字位置匹配的方式，计算所述语句L_i与该条信息M_j的字匹配相似度包括：

对于所述信息M_j中的每个字W_k，查找该字W_k在所述语句L_i中对应的位置；

对于所述信息M_j中的每个字W_k，如果该字W_k在所述语句L_i中对应的位置与字W_k+1在所述语句L_i中对应位置之间的距离小于预设的距离阈值，则将该字W_k和字W_k+1确定为有效匹配字，其中，所述字W_k+1为所述信息M_j中所述字W_k之后的相邻字；

计算所述信息M_j中的有效匹配字数量与所述信息M_j长度的比值，将所述比值确定为所述语句L_i与该条信息M_j的字匹配相似度。

较佳地，所述按照拼音位置匹配的方式，计算所述语句L_i与该条信息M_j的拼音匹配相似度包括：

将所述语句L_i转换为拼音格式的语句L_i＇；

对于信息M_j＇中每个字的拼音P_y，查找该拼音P_y在所述语句L_i＇中对应的位置；其中，所述信息M_j＇为所述信息M_j的拼音格式文本；

对于信息M_j＇中每个字的拼音P_y，如果该拼音P_y在所述语句L_i＇中对应的位置与拼音P_y+1在所述语句L_i＇中对应位置之间的距离小于预设的距离阈值，则将该拼音P_y和拼音P_y+1确定为有效匹配拼音；其中，所述拼音P_y+1为所述信息M_j＇中所述拼音P_y之后的相邻字的拼音；

计算所述信息M_j＇中的有效匹配拼音数量与所述信息M_j长度的比值，将所述比值确定为所述语句L_i与该条信息M_j的拼音匹配相似度。

较佳地，所述知识库由若干子库构成，每个子库由若干含义相同或相似但表述方式不同的信息构成，每个子库具有一条标准信息。

较佳地，所述确定所述候选集合中与该行语句L_i相匹配的信息包括：

将所述候选集合中的信息，按照相似度的降序排序；其中，对于相似度相同的信息，按照与该行语句L_i之间的长度差的升序进行排序；

从所述排序得到的队列中选择出前W条信息；所述W为预设的信息筛选阈值；

从所述W条信息中选择出与该行语句L_i的相似度大于预设第一相似度阈值的信息，作为该行语句L_i相匹配的信息。

本申请还公开了一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储指令，所述指令在由处理器执行时使得所述处理器执行如前所述的基于文本的信息抽取方法的步骤。

本申请还公开了一种电子设备，包括如前所述的非易失性计算机可读存储介质、以及可访问所述非易失性计算机可读存储介质的所述处理器。

由上述技术方案可见，本申请提出的基于文本的信息抽取方案中，以行为单位对目标文本中的语句进行信息抽取处理，在该信息抽取过程中，先对该行语句进行纠错处理后，然后，再基于纠错后的语句，确定该语句与知识库中每条信息的相似度，最后，再根据所确定的相似度以及信息与该行语句之间的长度差，按照相似度优先的原则，从知识库中选择出与该行语句相匹配的信息，从而可以准确地从该行语句抽取出知识库中的信息。

附图说明

图1为本发明实施例的方法流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明作进一步地详细描述。

图1为本发明实施例的方法流程示意图，如图1所示，该实施例实现的基于文本的信息抽取方法主要包括：

步骤101、对于文本中的每一行语句L_i，对该行语句L_i进行纠错处理后，确定纠错后的语句与预设知识库中每条信息的相似度，并根据所述相似度，确定该行语句L_i对应的所述信息的候选集合。

这里，考虑到实际应用中一段对话有可能包含知识库中的多条信息，为此，在本实施例中，将以行为单位执行基本的信息抽取操作，以确保可以从对话语句中抽取出知识库中的所有信息。

具体的，所述文本即需要从中抽取预设信息的文本。例如，可以是客服人员与客户之间的语音对话转换得到的文本。

本领域技术人员可以根据实际需要，构建所述知识库。例如，库中的信息可以为客服人员需要向客户提出的问题。这样，利用本方案即可从客服人员与客户对话的文本文件中，准确地抽取出知识库中设定的问题，进而可以基于抽取结果，对客户的服务是否达标进行审核。

较佳地，考虑到实际应用中，含义相同或相似的信息可以具有多种表述方式。例如，“使用的是中国移动家庭宽带吗”、“使用的是中国移动家庭宽带么”和“使用的是中国移动宽带吗”等这些信息的含义是相同或相似的。为此，为了进一步提高信息抽取的准确性，在具体构建所述知识库时，可以基于知识库中的信息进行扩充，将含义相同或相似但是表述方式不同的信息增加到知识库中。这样，通过对知识库中信息的扩充，可以提高信息抽取的灵活性、宽容性和智能化，不再局限于信息的固定表述形式。具体地，可以采用下述方式实现这一目的。

所述知识库由若干子库构成，每个子库由若干含义相同或相似但表述方式不同的信息构成，每个子库具有一条标准信息。在每个子库中，标准信息之外的其他信息与该标准信息的含义相同或相似，表述方式不同。这样，如果文本中包含了某个标准信息所属子库中的其他信息，也可以从文本中抽取出相应信息，从而提高了信息抽取的宽容度。

为了进一步提高本步骤中相似度确定的准确性，较佳地，可以综合利用字位置匹配的方式和拼音位置匹配的方式，来确定纠错后的语句与所述知识库中每条信息的相似度。

基于上述思想，较佳地，步骤101中可以采用下述方法，确定纠错后的语句与预设知识库中每条信息的相似度，并根据所述相似度，确定该行语句L_i对应的所述信息的候选集合：

上述方法中，对于知识库中的每条信息M_j，先按照字位置匹配的方式，计算所述语句L_i与该条信息M_j的字匹配相似度，当字匹配相似度不够高时，为了避免纠错后的语句中仍然存在谐音错误而影响了相似度计算的准确性，还需要再按照拼音位置匹配的方式，计算语句L_i与该条信息M_j的拼音匹配相似度，当拼音匹配相似度足够高时，即大于等于预设的拼音匹配相似度阈值时，则可以将该条信息M_j视为与语句L_i匹配的候选信息，因此，将其加入候选集合，以便在后续步骤中，进一步基于该集合中的信息，选择出与语句L_i相匹配的信息。

在实际应用中，本领域技术人员可根据实际需要设置所述字匹配相似度阈值和所述拼音匹配相似度阈值。

较佳地，为了提高信息抽取的宽容性，减少文本中的形式错误对信息抽取准确性的影响，可以将所述字匹配相似度阈值大于所述拼音匹配相似度阈值。例如，所述字匹配相似度阈值可以设置为0.95，所述拼音匹配相似度阈值可以设置为0.93。

较佳地，可以采用下述方法按照字位置匹配的方式，计算所述语句L_i与该条信息M_j的字匹配相似度：

s1、对于所述信息M_j中的每个字W_k，查找该字W_k在所述语句L_i中对应的位置。

s2、对于所述信息M_j中的每个字W_k，如果该字W_k在所述语句L_i中对应的位置与字W_k+1在所述语句L_i中对应位置之间的距离小于预设的距离阈值，则将该字W_k和字W_k+1确定为有效匹配字，其中，所述字W_k+1为所述信息M_j中所述字W_k之后的相邻字。

s3、计算所述信息M_j中的有效匹配字数量与所述信息M_j长度的比值，将所述比值确定为所述语句L_i与该条信息M_j的字匹配相似度。

较佳地，可以采用下述方法按照拼音位置匹配的方式，计算所述语句L_i与该条信息M_j的拼音匹配相似度为：

k1、将所述语句L_i转换为拼音格式的语句L_i＇。

k2、对于信息M_j＇中每个字的拼音P_y，查找该拼音P_y在所述语句L_i＇中对应的位置；其中，所述信息M_j＇为所述信息M_j的拼音格式文本。

k3、对于信息M_j＇中每个字的拼音P_y，如果该拼音P_y在所述语句L_i＇中对应的位置与拼音P_y+1在所述语句L_i＇中对应位置之间的距离小于预设的距离阈值，则将该拼音P_y和拼音P_y+1确定为有效匹配拼音；其中，所述拼音P_y+1为所述信息M_j＇中所述拼音P_y之后的相邻字的拼音。

k4、计算所述信息M_j＇中的有效匹配拼音数量与所述信息M_j长度的比值，将所述比值确定为所述语句L_i与该条信息M_j的拼音匹配相似度。

在实际应用中，语音转换的文本中难免会有一些错误。例如，对话语句“使用的是中国移动家庭宽带吗”经过语音至文本的转换后，可能会被转换成“使用的是中国移动家庭款带吗”。为此，在步骤101中对于文本中的每一行语句L_i，在确定其与知识库中每条信息的相似度之前，需要先对其进行纠错处理，对语音转换的一些错误进行纠正，以提高所确定的相似度的准确性。例如，“使用的是中国移动家庭款带吗”经过纠错处理后，可以得到正确的语义表达语句“使用的是中国移动家庭宽带吗”。具体的纠错处理可以采用现有方法实现。较佳地，可以采用下述步骤进行纠错处理，但不限于此。

步骤x1、对语句进行文本检错。

本步骤是对文本中的错误进行检查。具体地，首先将混淆词添加到疑似词列表中，然后将未登录词添加到疑似词列表，最后采用2-gram、3-gram语言模型进行错字检错判断。将文本中不符合语言习惯时，输出检错结果。

步骤x2、对检错结果进行纠错。

本步骤是对上一步骤检查出来的错误尝试纠正。具体地，可以通过编辑距离、最长公共子串和拼音相似度来获取疑似错词来获取疑似正确词，并对疑似正确词语中进行困惑度得分排序。选取困惑度分值最小的作为正确词，模型将自主替换掉错误词。

步骤x3、对纠错结果进行验证。

本步骤是对上一步骤的纠错结果进行验证。

步骤102、根据所述候选集合中每条信息对应的所述相似度以及与该行语句L_i之间的长度差，按照相似度优先的原则，确定所述候选集合中与该行语句L_i相匹配的信息。

本步骤中，为了确保相似度的准确性，需要按照相似度优先的原则，确定所述候选集合中与该行语句L_i相匹配的信息。较佳地，当出现多个信息时，优先选择相似度高的信息作为与该行语句L_i相匹配的信息，当多个信息相似度相同时，从中选择长度与语句L_i接近的信息，作为与语句L_i相匹配的信息。

较佳地，当知识库为步骤101中所述的经过扩充的知识库时，可以采用下述几种方法确定所述候选集合中与该行语句L_i相匹配的信息，但不限于此：

方法一：

从所述候选集合中，选择出与该行语句L_i的相似度最大且大于预设第一相似度阈值的信息；

如果所述选择失败，则确定所述知识库中没有与该行语句L_i相匹配的信息；

如果所述选择的结果仅包含一条信息，则将该信息所在子库中的标准信息，确定为与该行语句L_i相匹配的信息；

如果所述选择的结果包含多条信息，则从所述结果中选择出与该行语句L_i之间的长度差最小的信息M_s，将该信息M_s所在子库中的标准信息，确定为与该行语句L_i相匹配的信息。

方法二：

所述第一相似度阈值和所述信息筛选阈值，用于控制与一行语句相匹配的信息数量和匹配的准确性，具体地，本领域技术人员可以根据实际需要，通过仿真设置所述第一相似度阈值和所述信息筛选阈值。

在实际应用中，方法一适用于一行语句仅包含一种知识库信息的场景，方法二，则不仅适用于该场景，还适用于一行语句包含多条知识库信息的场景，故相比于前才方法二的应用范围更广，具体地，可由本领域技术人员根据实际需要选择步骤102合适的实现方法。

在实际应用中，并不限于采用上述方法，确定所述候选集合中与该行语句L_i相匹配的信息。例如，可以直接从所述候选集合中选择出相似度最大且大于所述第一相似度阈值的信息，作为与当前语句L_i相匹配的信息。

在实际应用中，本领域技术人员可以根据实际需要设置所述第一相似度阈值的合适取值。例如，可以是0.98，但不限于此。较佳地，为了提高抽取的准确性，可以设置所述第一相似度阈值大于上述字匹配相似度阈值和拼音匹配相似度阈值。

从上述技术方案，可以看出采用本发明实施例即可智能化地提取出文本中各行中的知识库信息，从而可以获得文本中包含的所有知识库信息，有效克服了文本中的语音转写错误、一段文本包含多条信息等信息抽取困难。

此外，本申请还提供了一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储指令，所述指令在由处理器执行时使得所述处理器执行如前所述的基于文本的信息抽取方法的步骤。

此外，本申请还提供了一种电子设备，包括如上所述的非易失性计算机可读存储介质、以及可访问所述非易失性计算机可读存储介质的所述处理器。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种基于文本的信息抽取方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于：利用字位置匹配的方式和拼音位置匹配的方式，确定纠错后的语句与所述知识库中每条信息的相似度。

3.如权利要求2所述的方法，其特征在于：所述确定纠错后的语句与预设知识库中每条信息的相似度，并根据所述相似度，确定该行语句L_i对应的所述信息的候选集合包括：

4.如权利要求3所述的方法，其特征在于：所述字匹配相似度阈值大于所述拼音匹配相似度阈值。

5.如权利要求3所述的方法，其特征在于：所述按照字位置匹配的方式，计算所述语句L_i与该条信息M_j的字匹配相似度包括：

6.如权利要求3所述的方法，其特征在于：所述按照拼音位置匹配的方式，计算所述语句L_i与该条信息M_j的拼音匹配相似度包括：

将所述语句L_i转换为拼音格式的语句L_i＇；

7.如权利要求1所述的方法，其特征在于：所述知识库由若干子库构成，每个子库由若干含义相同或相似但表述方式不同的信息构成，每个子库具有一条标准信息。

8.如权利要求7所述的方法，其特征在于：所述确定所述候选集合中与该行语句L_i相匹配的信息包括：

9.一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储指令，其特征在于，所述指令在由处理器执行时使得所述处理器执行如权利要求1至8中任一项所述的基于文本的信息抽取方法的步骤。

10.一种电子设备，其特征在于，包括如权利要求9所述的非易失性计算机可读存储介质、以及可访问所述非易失性计算机可读存储介质的所述处理器。