CN111427996A - 一种人机交互文本中抽取日期时间的方法和装置 - Google Patents
一种人机交互文本中抽取日期时间的方法和装置 Download PDFInfo
- Publication number
- CN111427996A CN111427996A CN202010137150.2A CN202010137150A CN111427996A CN 111427996 A CN111427996 A CN 111427996A CN 202010137150 A CN202010137150 A CN 202010137150A CN 111427996 A CN111427996 A CN 111427996A
- Authority
- CN
- China
- Prior art keywords
- text
- time
- semantic similarity
- segmented
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 23
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000003058 natural language processing Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003197 catalytic effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种人机交互文本中抽取日期时间的方法和装置。该方法包括以下步骤:S101,分割文本为若干文本段;S102,计算意图文本和各个分割的文本段的语义相似度;S103,比较所述各个分割的文本段语义相似度和阈值;S104,如果所述各个分割的文本段中任一分割的文本段的语义相似度大于阈值,则将所述任一分割的文本段所包含的时间文本标准化时间戳,生成应答返回。本发明的人机交互文本中抽取日期时间的方法,在外呼的多轮对话场景中,通过NLP中NER对用户的说话的文本打上time的时间标签,然后通过语义相似度模型匹配用户表达的意图,两者结合,就可以很好提高业务时间槽位抽取精确率,提升产品的交互体验。
Description
技术领域
本发明涉及人机交互技术领域,尤其涉及一种人机交互文本中抽取日期时间的方法和装置。
背景技术
在外呼的多轮交互场景中,由于业务的需要提取用户在某一轮交互中时间的信息,例如:催收场景中需要提取用户具体的还款时间,以便业务判断是否有逾期的风险。通过对时间的词典的进行模型训练,利用命名实体识别(NER)对于时间文本打上time的标签,如果是多个时间情况下,则以时间标签为分隔符进行分句,然后利用相识度模型进行相似度计算,可以选定初始阈值0.8(可以根据实际测试值云端配置),如果匹配到关键字或着相似度大于阈值,就认为是抽取时间是业务所需要的时间,然后在标准化具体的时间戳返回。
通过自然语言处理(NLP)中的命名实体识别(NER)打上time标签,然后对于用户中的对话中文本提取时间的文本,在用户说话的文本如果含有有多个时间标签,这样抽取的时间信息,不仅不能有效的区分到底是否是业务需要的时间,并且严重影踪用户体验,甚至引起用户的投诉。
发明内容
为了解决上述问题,本发明基于自然语言处理(NLP)中的命名实体识别(NER)基础上,加上关键字或相似度模型的匹配来完成业务时间槽位准确抽取的方法,初始阈值0.8,在经过NER分析处理打上time的标签,可以抽取用户的说话文本是否带有时间的,在多个时间标签情况下,按时间标签分割成多个文本,然后将意图文本(例如:还款时间等)和分割的文本段进行语义相似度模型的计算,判断分数是否达到阈值,如果大于阈值则判读该段文本所包含的时间文本是业务需要的,那么这样抽取出来时间文本就更加精准和有效。
本发明的第一方面在于提供一种人机交互文本中抽取日期时间的方法,包括以下步骤:
S101,分割文本为若干文本段;
S102,计算意图文本和各个分割的文本段的语义相似度;
S103,比较所述各个分割的文本段语义相似度和阈值;
S104,如果所述各个分割的文本段中任一分割的文本段的语义相似度大于阈值,则将所述任一分割的文本段所包含的时间文本标准化时间戳,生成应答返回。
在本发明的一些实施方式中,所述S101中,包括以下步骤:
S1011,获取人机交互中用户说话的文本;
S1012,建立命名实体识别模型,并对时间的词典进行模型训练;
S1013,利用所述命名实体识别模型进行文本的基于自然语言处理中的命名实体识别,打上time标签;
S1014,以所述time标签为分隔符,将所述文本分割为若干文本段。
在本发明的一些实施方式中,所述S102中,包括以下步骤:
S1021,获取意图文本;
S1022,建立相似度模型;
S1023,利用所述相似度模型进行意图文本和各个分割的文本段的语义相似度的计算。
在本发明的一些实施方式中,所述S103中,包括以下步骤:
S1031,设置用于和所述各个分割的文本段语义相似度进行比较的初始的阈值;
S1032,分别进行所述各个分割的文本段语义相似度和阈值的比较。
在本发明的一些实施方式中,所述初始的阈值为0.8。
本发明的第二方面在于提供一种人机交互文本中抽取日期时间的装置,包括以下模块:
第一模块,用于分割文本为若干文本段;
第二模块,用于计算意图文本和各个分割的文本段的语义相似度;
第三模块,用于比较所述各个分割的文本段语义相似度和阈值;
第四模块,用于如果所述各个分割的文本段中任一分割的文本段的语义相似度大于阈值,则将所述任一分割的文本段所包含的时间文本标准化时间戳,生成应答返回。
在本发明的一些实施方式中,所述第一模块包括以下子模块:
第一子模块,用于获取人机交互中用户说话的文本;
第二子模块,用于建立命名实体识别模型,并对时间的词典进行模型训练;
第三子模块,用于利用所述命名实体识别模型进行文本的基于自然语言处理中的命名实体识别,打上time标签;
第四子模块,用于以所述time标签为分隔符,将所述文本分割为若干文本段。
在本发明的一些实施方式中,所述第二模块包括以下子模块:
第五子模块,用于获取意图文本;
第六子模块,用于建立相似度模型;
第七子模块,用于利用所述相似度模型进行意图文本和各个分割的文本段的语义相似度的计算。
在本发明的一些实施方式中,所述第三模块包括以下子模块:
第八子模块,用于设置用于和所述各个分割的文本段语义相似度进行比较的初始的阈值;
第九子模块,用于分别进行所述各个分割的文本段语义相似度和阈值的比较。
在本发明的一些实施方式中,所述初始的阈值为0.8。
本发明的有益效果:
本发明的人机交互文本中抽取日期时间的方法和装置,在外呼的多轮对话场景中,通过NLP中NER对用户的说话的文本打上time的时间标签,然后通过语义相似度模型匹配用户表达的意图,两者结合,就可以很好提高业务时间槽位抽取精确率,提升产品的交互体验。
附图说明
图1为本发明一种人机交互文本中抽取日期时间的方法的一些实施方式的结构示意图;
图2为本发明一种人机交互文本中抽取日期时间的装置的一些实施方式的结构示意图。
具体实施方式
以下对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
一种人机交互文本中抽取日期时间的方法,如图1所示,包括以下步骤:
S101,分割文本为若干文本段;
S102,计算意图文本和各个分割的文本段的语义相似度;
S103,比较所述各个分割的文本段语义相似度和阈值;
S104,如果所述各个分割的文本段中任一分割的文本段的语义相似度大于阈值,则将所述任一分割的文本段所包含的时间文本标准化时间戳,生成应答返回。
在一些实施方式中,所述S101中,包括以下步骤:
S1011,获取人机交互中用户说话的文本;
S1012,建立命名实体识别模型,并对时间的词典进行模型训练;
S1013,利用所述命名实体识别模型进行文本的基于自然语言处理中的命名实体识别,打上time标签;
S1014,以所述time标签为分隔符,将所述文本分割为若干文本段。
本实施例的人机交互文本中抽取日期时间的方法,在外呼的多轮对话场景中,通过NLP中NER对用户的说话的文本打上time的时间标签。如果具有多个分割的文本段,则,计算意图文本和各个分割的文本段的语义相似度然后通过语义相似度模型匹配用户表达的意图,两者结合,就可以很好提高业务时间槽位抽取精确率,提升产品的交互体验。
以催收为例:用户说“我今天有点忙后天还可以吗”
第一步:NLP对用户输入的文本分析处理,打上NER标签后的句子是
“我今天/time有点忙后天/time还可以吗”。
第二步:通过/time标签为分隔符,将文本分成三段,分别是“我”、“有点忙”、“还可以吗”,然后通过与“还款”这个意图语料语义相似度模型的进行计算,这里“还可以吗”可以匹配到还款的意图语料,如果达到相似度阈值,这个文本的前面时间标签“后天/time”就是业务所需要的准确时间信息。
在一些实施方式中,所述S102中,包括以下步骤:
S1021,获取意图文本;
S1022,建立相似度模型;
S1023,利用所述相似度模型进行意图文本和各个分割的文本段的语义相似度的计算。
在一些实施方式中,所述S103中,包括以下步骤:
S1031,设置用于和所述各个分割的文本段语义相似度进行比较的初始的阈值;
S1032,分别进行所述各个分割的文本段语义相似度和阈值的比较。
在一些实施方式中,所述初始的阈值为0.8。
一种人机交互文本中抽取日期时间的装置,如图2所示,包括以下模块:
第一模块,用于分割文本为若干文本段;
第二模块,用于计算意图文本和各个分割的文本段的语义相似度;
第三模块,用于比较所述各个分割的文本段语义相似度和阈值;
第四模块,用于如果所述各个分割的文本段中任一分割的文本段的语义相似度大于阈值,则将所述任一分割的文本段所包含的时间文本标准化时间戳,生成应答返回。
在一些实施方式中,所述第一模块包括以下子模块:
第一子模块,用于获取人机交互中用户说话的文本;
第二子模块,用于建立命名实体识别模型,并对时间的词典进行模型训练;
第三子模块,用于利用所述命名实体识别模型进行文本的基于自然语言处理中的命名实体识别,打上time标签;
第四子模块,用于以所述time标签为分隔符,将所述文本分割为若干文本段。
在一些实施方式中,所述第二模块包括以下子模块:
第五子模块,用于获取意图文本;
第六子模块,用于建立相似度模型;
第七子模块,用于利用所述相似度模型进行意图文本和各个分割的文本段的语义相似度的计算。
在一些实施方式中,所述第三模块包括以下子模块:
第八子模块,用于设置用于和所述各个分割的文本段语义相似度进行比较的初始的阈值;
第九子模块,用于分别进行所述各个分割的文本段语义相似度和阈值的比较。
在一些实施方式中,所述初始的阈值为0.8。
附图中的流程图和框图显示了根据本发明的实施例的方法和装置。其中,各个步骤以单独或组合执行,各个模块可以单独或组合由一个或多个单元来实现,实现方式包括但不限于通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现。
以上对本发明优选的具体实施方式和实施例作了详细说明,但是本发明并不限于上述实施方式和实施例,在本领域技术人员所具备的知识范围内,还可以在不脱离本发明构思的前提下作出各种变化。
Claims (10)
1.一种人机交互文本中抽取日期时间的方法,其特征在于,包括以下步骤:
S101,分割文本为若干文本段;
S102,计算意图文本和各个分割的文本段的语义相似度;
S103,比较所述各个分割的文本段语义相似度和阈值;
S104,如果所述各个分割的文本段中任一分割的文本段的语义相似度大于阈值,则将所述任一分割的文本段所包含的时间文本标准化时间戳,生成应答返回。
2.根据权利要求1所述的方法,其特征在于,所述S101中,包括以下步骤:
S1011,获取人机交互中用户说话的文本;
S1012,建立命名实体识别模型,并对时间的词典进行模型训练;
S1013,利用所述命名实体识别模型进行文本的基于自然语言处理中的命名实体识别,打上time标签;
S1014,以所述time标签为分隔符,将所述文本分割为若干文本段。
3.根据权利要求1或2所述的方法,其特征在于,所述S102中,包括以下步骤:
S1021,获取意图文本;
S1022,建立相似度模型;
S1023,利用所述相似度模型进行意图文本和各个分割的文本段的语义相似度的计算。
4.根据权利要求1-3任一所述的方法,其特征在于,所述S103中,包括以下步骤:
S1031,设置用于和所述各个分割的文本段语义相似度进行比较的初始的阈值;
S1032,分别进行所述各个分割的文本段语义相似度和阈值的比较。
5.根据权利要求1-4任一所述的方法,其特征在于,所述初始的阈值为0.8。
6.一种人机交互文本中抽取日期时间的装置,其特征在于,包括以下模块:
第一模块,用于分割文本为若干文本段;
第二模块,用于计算意图文本和各个分割的文本段的语义相似度;
第三模块,用于比较所述各个分割的文本段语义相似度和阈值;
第四模块,用于如果所述各个分割的文本段中任一分割的文本段的语义相似度大于阈值,则将所述任一分割的文本段所包含的时间文本标准化时间戳,生成应答返回。
7.根据权利要求6述的装置,其特征在于,所述第一模块包括以下子模块:
第一子模块,用于获取人机交互中用户说话的文本;
第二子模块,用于建立命名实体识别模型,并对时间的词典进行模型训练;
第三子模块,用于利用所述命名实体识别模型进行文本的基于自然语言处理中的命名实体识别,打上time标签;
第四子模块,用于以所述time标签为分隔符,将所述文本分割为若干文本段。
8.根据权利要求6或7所述的装置,其特征在于,所述第二模块包括以下子模块:
第五子模块,用于获取意图文本;
第六子模块,用于建立相似度模型;
第七子模块,用于利用所述相似度模型进行意图文本和各个分割的文本段的语义相似度的计算。
9.根据权利要求6-8任一所述的装置,其特征在于,所述第三模块包括以下子模块:
第八子模块,用于设置用于和所述各个分割的文本段语义相似度进行比较的初始的阈值;
第九子模块,用于分别进行所述各个分割的文本段语义相似度和阈值的比较。
10.根据权利要求6-9任一所述的装置,其特征在于,所述初始的阈值为0.8。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010137150.2A CN111427996B (zh) | 2020-03-02 | 2020-03-02 | 一种人机交互文本中抽取日期时间的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010137150.2A CN111427996B (zh) | 2020-03-02 | 2020-03-02 | 一种人机交互文本中抽取日期时间的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111427996A true CN111427996A (zh) | 2020-07-17 |
CN111427996B CN111427996B (zh) | 2023-10-20 |
Family
ID=71547376
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010137150.2A Active CN111427996B (zh) | 2020-03-02 | 2020-03-02 | 一种人机交互文本中抽取日期时间的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111427996B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112183075A (zh) * | 2020-10-10 | 2021-01-05 | 网易(杭州)网络有限公司 | 一种对话中的槽提取方法、装置、电子设备及存储介质 |
CN114240672A (zh) * | 2021-12-15 | 2022-03-25 | 平安科技(深圳)有限公司 | 绿色资产的占比的识别方法及相关产品 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014115737A (ja) * | 2012-12-06 | 2014-06-26 | Nippon Telegr & Teleph Corp <Ntt> | 画像辞書生成装置、画像辞書生成方法及びコンピュータプログラム |
CN108197191A (zh) * | 2017-12-27 | 2018-06-22 | 神思电子技术股份有限公司 | 一种多轮对话的场景意图中断方法 |
CN110209791A (zh) * | 2019-06-12 | 2019-09-06 | 百融云创科技股份有限公司 | 一种多轮对话智能语音交互系统及装置 |
CN110209793A (zh) * | 2019-06-18 | 2019-09-06 | 佰聆数据股份有限公司 | 一种用于智能识别文本语义的方法 |
WO2020006835A1 (zh) * | 2018-07-03 | 2020-01-09 | 平安科技(深圳)有限公司 | 智能客服多轮问答方法、设备、存储介质及装置 |
-
2020
- 2020-03-02 CN CN202010137150.2A patent/CN111427996B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014115737A (ja) * | 2012-12-06 | 2014-06-26 | Nippon Telegr & Teleph Corp <Ntt> | 画像辞書生成装置、画像辞書生成方法及びコンピュータプログラム |
CN108197191A (zh) * | 2017-12-27 | 2018-06-22 | 神思电子技术股份有限公司 | 一种多轮对话的场景意图中断方法 |
WO2020006835A1 (zh) * | 2018-07-03 | 2020-01-09 | 平安科技(深圳)有限公司 | 智能客服多轮问答方法、设备、存储介质及装置 |
CN110209791A (zh) * | 2019-06-12 | 2019-09-06 | 百融云创科技股份有限公司 | 一种多轮对话智能语音交互系统及装置 |
CN110209793A (zh) * | 2019-06-18 | 2019-09-06 | 佰聆数据股份有限公司 | 一种用于智能识别文本语义的方法 |
Non-Patent Citations (1)
Title |
---|
刘耀;帅远华;龚幸伟;黄毅;: "基于领域本体的文本分割方法研究", 计算机科学, no. 01 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112183075A (zh) * | 2020-10-10 | 2021-01-05 | 网易(杭州)网络有限公司 | 一种对话中的槽提取方法、装置、电子设备及存储介质 |
CN112183075B (zh) * | 2020-10-10 | 2023-06-30 | 网易(杭州)网络有限公司 | 一种对话中的槽提取方法、装置、电子设备及存储介质 |
CN114240672A (zh) * | 2021-12-15 | 2022-03-25 | 平安科技(深圳)有限公司 | 绿色资产的占比的识别方法及相关产品 |
WO2023108985A1 (zh) * | 2021-12-15 | 2023-06-22 | 平安科技(深圳)有限公司 | 绿色资产的占比的识别方法及相关产品 |
CN114240672B (zh) * | 2021-12-15 | 2023-08-18 | 平安科技(深圳)有限公司 | 绿色资产的占比的识别方法及相关产品 |
Also Published As
Publication number | Publication date |
---|---|
CN111427996B (zh) | 2023-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110349564A (zh) | 一种跨语言语音识别方法和装置 | |
CN107491435B (zh) | 基于计算机自动识别用户情感的方法及装置 | |
CN107305541A (zh) | 语音识别文本分段方法及装置 | |
CN104462600A (zh) | 实现来电原因自动分类的方法及装置 | |
CN109635288A (zh) | 一种基于深度神经网络的简历抽取方法 | |
CN112951275B (zh) | 语音质检方法、装置、电子设备及介质 | |
CN111046656A (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
EP4033484A2 (en) | Recognition of semantic information of a speech signal, training a recognition model | |
CN112966082A (zh) | 音频质检方法、装置、设备以及存储介质 | |
CN116108857B (zh) | 信息抽取方法、装置、电子设备以及存储介质 | |
CN104538035A (zh) | 一种基于Fisher超向量的说话人识别方法及系统 | |
CN111427996B (zh) | 一种人机交互文本中抽取日期时间的方法和装置 | |
CN111079384B (zh) | 一种用于智能质检服务禁语的识别方法及系统 | |
CN112201253B (zh) | 文字标记方法、装置、电子设备及计算机可读存储介质 | |
CN117275466A (zh) | 一种业务意图识别方法、装置、设备及其存储介质 | |
CN111326142A (zh) | 基于语音转文本的文本信息提取方法、系统和电子设备 | |
CN112466286A (zh) | 数据处理方法及装置、终端设备 | |
CN113470617B (zh) | 语音识别方法以及电子设备、存储装置 | |
CN114707515A (zh) | 话术判别方法、装置、电子设备及存储介质 | |
CN115831125A (zh) | 语音识别方法、装置、设备、存储介质及产品 | |
CN114974294A (zh) | 一种多模态语音通话信息抽取方法及系统 | |
CN113887239A (zh) | 基于人工智能的语句分析方法、装置、终端设备及介质 | |
CN112466324A (zh) | 一种情绪分析方法、系统、设备及可读存储介质 | |
CN112241467A (zh) | 一种音频查重的方法和装置 | |
CN111209729A (zh) | 一种基于序列标注的财务科目计算关系识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |