CN111427996A

CN111427996A - 一种人机交互文本中抽取日期时间的方法和装置

Info

Publication number: CN111427996A
Application number: CN202010137150.2A
Authority: CN
Inventors: 李旭滨; 詹学君
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-03-02
Filing date: 2020-03-02
Publication date: 2020-07-17
Anticipated expiration: 2040-03-02
Also published as: CN111427996B

Abstract

本发明公开了一种人机交互文本中抽取日期时间的方法和装置。该方法包括以下步骤：S101，分割文本为若干文本段；S102，计算意图文本和各个分割的文本段的语义相似度；S103，比较所述各个分割的文本段语义相似度和阈值；S104，如果所述各个分割的文本段中任一分割的文本段的语义相似度大于阈值，则将所述任一分割的文本段所包含的时间文本标准化时间戳，生成应答返回。本发明的人机交互文本中抽取日期时间的方法，在外呼的多轮对话场景中，通过NLP中NER对用户的说话的文本打上time的时间标签，然后通过语义相似度模型匹配用户表达的意图，两者结合，就可以很好提高业务时间槽位抽取精确率，提升产品的交互体验。

Description

一种人机交互文本中抽取日期时间的方法和装置

技术领域

本发明涉及人机交互技术领域，尤其涉及一种人机交互文本中抽取日期时间的方法和装置。

背景技术

在外呼的多轮交互场景中，由于业务的需要提取用户在某一轮交互中时间的信息，例如：催收场景中需要提取用户具体的还款时间，以便业务判断是否有逾期的风险。通过对时间的词典的进行模型训练，利用命名实体识别(NER)对于时间文本打上time的标签，如果是多个时间情况下，则以时间标签为分隔符进行分句，然后利用相识度模型进行相似度计算，可以选定初始阈值0.8(可以根据实际测试值云端配置)，如果匹配到关键字或着相似度大于阈值，就认为是抽取时间是业务所需要的时间，然后在标准化具体的时间戳返回。

通过自然语言处理(NLP)中的命名实体识别(NER)打上time标签，然后对于用户中的对话中文本提取时间的文本，在用户说话的文本如果含有有多个时间标签，这样抽取的时间信息,不仅不能有效的区分到底是否是业务需要的时间，并且严重影踪用户体验，甚至引起用户的投诉。

发明内容

为了解决上述问题，本发明基于自然语言处理(NLP)中的命名实体识别(NER)基础上，加上关键字或相似度模型的匹配来完成业务时间槽位准确抽取的方法，初始阈值0.8，在经过NER分析处理打上time的标签，可以抽取用户的说话文本是否带有时间的，在多个时间标签情况下，按时间标签分割成多个文本，然后将意图文本(例如：还款时间等)和分割的文本段进行语义相似度模型的计算，判断分数是否达到阈值,如果大于阈值则判读该段文本所包含的时间文本是业务需要的，那么这样抽取出来时间文本就更加精准和有效。

本发明的第一方面在于提供一种人机交互文本中抽取日期时间的方法，包括以下步骤：

S101，分割文本为若干文本段；

S102，计算意图文本和各个分割的文本段的语义相似度；

S103，比较所述各个分割的文本段语义相似度和阈值；

S104，如果所述各个分割的文本段中任一分割的文本段的语义相似度大于阈值，则将所述任一分割的文本段所包含的时间文本标准化时间戳，生成应答返回。

在本发明的一些实施方式中，所述S101中，包括以下步骤：

S1011，获取人机交互中用户说话的文本；

S1012，建立命名实体识别模型，并对时间的词典进行模型训练；

S1013，利用所述命名实体识别模型进行文本的基于自然语言处理中的命名实体识别，打上time标签；

S1014，以所述time标签为分隔符，将所述文本分割为若干文本段。

在本发明的一些实施方式中，所述S102中，包括以下步骤：

S1021，获取意图文本；

S1022，建立相似度模型；

S1023，利用所述相似度模型进行意图文本和各个分割的文本段的语义相似度的计算。

在本发明的一些实施方式中，所述S103中，包括以下步骤：

S1031，设置用于和所述各个分割的文本段语义相似度进行比较的初始的阈值；

S1032，分别进行所述各个分割的文本段语义相似度和阈值的比较。

在本发明的一些实施方式中，所述初始的阈值为0.8。

本发明的第二方面在于提供一种人机交互文本中抽取日期时间的装置，包括以下模块：

第一模块，用于分割文本为若干文本段；

第二模块，用于计算意图文本和各个分割的文本段的语义相似度；

第三模块，用于比较所述各个分割的文本段语义相似度和阈值；

第四模块，用于如果所述各个分割的文本段中任一分割的文本段的语义相似度大于阈值，则将所述任一分割的文本段所包含的时间文本标准化时间戳，生成应答返回。

在本发明的一些实施方式中，所述第一模块包括以下子模块：

第一子模块，用于获取人机交互中用户说话的文本；

第二子模块，用于建立命名实体识别模型，并对时间的词典进行模型训练；

第三子模块，用于利用所述命名实体识别模型进行文本的基于自然语言处理中的命名实体识别，打上time标签；

第四子模块，用于以所述time标签为分隔符，将所述文本分割为若干文本段。

在本发明的一些实施方式中，所述第二模块包括以下子模块：

第五子模块，用于获取意图文本；

第六子模块，用于建立相似度模型；

第七子模块，用于利用所述相似度模型进行意图文本和各个分割的文本段的语义相似度的计算。

在本发明的一些实施方式中，所述第三模块包括以下子模块：

第八子模块，用于设置用于和所述各个分割的文本段语义相似度进行比较的初始的阈值；

第九子模块，用于分别进行所述各个分割的文本段语义相似度和阈值的比较。

在本发明的一些实施方式中，所述初始的阈值为0.8。

本发明的有益效果：

本发明的人机交互文本中抽取日期时间的方法和装置，在外呼的多轮对话场景中，通过NLP中NER对用户的说话的文本打上time的时间标签，然后通过语义相似度模型匹配用户表达的意图，两者结合，就可以很好提高业务时间槽位抽取精确率，提升产品的交互体验。

附图说明

图1为本发明一种人机交互文本中抽取日期时间的方法的一些实施方式的结构示意图；

图2为本发明一种人机交互文本中抽取日期时间的装置的一些实施方式的结构示意图。

具体实施方式

以下对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

一种人机交互文本中抽取日期时间的方法，如图1所示，包括以下步骤：

S101，分割文本为若干文本段；

S102，计算意图文本和各个分割的文本段的语义相似度；

S103，比较所述各个分割的文本段语义相似度和阈值；

在一些实施方式中，所述S101中，包括以下步骤：

S1011，获取人机交互中用户说话的文本；

本实施例的人机交互文本中抽取日期时间的方法，在外呼的多轮对话场景中，通过NLP中NER对用户的说话的文本打上time的时间标签。如果具有多个分割的文本段，则，计算意图文本和各个分割的文本段的语义相似度然后通过语义相似度模型匹配用户表达的意图，两者结合，就可以很好提高业务时间槽位抽取精确率，提升产品的交互体验。

以催收为例：用户说“我今天有点忙后天还可以吗”

第一步：NLP对用户输入的文本分析处理，打上NER标签后的句子是

“我今天/time有点忙后天/time还可以吗”。

第二步：通过/time标签为分隔符,将文本分成三段,分别是“我”、“有点忙”、“还可以吗”，然后通过与“还款”这个意图语料语义相似度模型的进行计算，这里“还可以吗”可以匹配到还款的意图语料，如果达到相似度阈值，这个文本的前面时间标签“后天/time”就是业务所需要的准确时间信息。

在一些实施方式中，所述S102中，包括以下步骤：

S1021，获取意图文本；

S1022，建立相似度模型；

在一些实施方式中，所述S103中，包括以下步骤：

在一些实施方式中，所述初始的阈值为0.8。

一种人机交互文本中抽取日期时间的装置，如图2所示，包括以下模块：

第一模块，用于分割文本为若干文本段；

在一些实施方式中，所述第一模块包括以下子模块：

第一子模块，用于获取人机交互中用户说话的文本；

在一些实施方式中，所述第二模块包括以下子模块：

第五子模块，用于获取意图文本；

第六子模块，用于建立相似度模型；

在一些实施方式中，所述第三模块包括以下子模块：

在一些实施方式中，所述初始的阈值为0.8。

附图中的流程图和框图显示了根据本发明的实施例的方法和装置。其中，各个步骤以单独或组合执行，各个模块可以单独或组合由一个或多个单元来实现，实现方式包括但不限于通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现。

以上对本发明优选的具体实施方式和实施例作了详细说明，但是本发明并不限于上述实施方式和实施例，在本领域技术人员所具备的知识范围内，还可以在不脱离本发明构思的前提下作出各种变化。

Claims

1.一种人机交互文本中抽取日期时间的方法，其特征在于，包括以下步骤：

S101，分割文本为若干文本段；

S102，计算意图文本和各个分割的文本段的语义相似度；

S103，比较所述各个分割的文本段语义相似度和阈值；

2.根据权利要求1所述的方法，其特征在于，所述S101中，包括以下步骤：

S1011，获取人机交互中用户说话的文本；

3.根据权利要求1或2所述的方法，其特征在于，所述S102中，包括以下步骤：

S1021，获取意图文本；

S1022，建立相似度模型；

4.根据权利要求1-3任一所述的方法，其特征在于，所述S103中，包括以下步骤：

5.根据权利要求1-4任一所述的方法，其特征在于，所述初始的阈值为0.8。

6.一种人机交互文本中抽取日期时间的装置，其特征在于，包括以下模块：

第一模块，用于分割文本为若干文本段；

7.根据权利要求6述的装置，其特征在于，所述第一模块包括以下子模块：

第一子模块，用于获取人机交互中用户说话的文本；

8.根据权利要求6或7所述的装置，其特征在于，所述第二模块包括以下子模块：

第五子模块，用于获取意图文本；

第六子模块，用于建立相似度模型；

9.根据权利要求6-8任一所述的装置，其特征在于，所述第三模块包括以下子模块：

10.根据权利要求6-9任一所述的装置，其特征在于，所述初始的阈值为0.8。