CN111427996A - 一种人机交互文本中抽取日期时间的方法和装置 - Google Patents

一种人机交互文本中抽取日期时间的方法和装置 Download PDF

Info

Publication number
CN111427996A
CN111427996A CN202010137150.2A CN202010137150A CN111427996A CN 111427996 A CN111427996 A CN 111427996A CN 202010137150 A CN202010137150 A CN 202010137150A CN 111427996 A CN111427996 A CN 111427996A
Authority
CN
China
Prior art keywords
text
time
semantic similarity
segmented
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010137150.2A
Other languages
English (en)
Other versions
CN111427996B (zh
Inventor
李旭滨
詹学君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd, Xiamen Yunzhixin Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202010137150.2A priority Critical patent/CN111427996B/zh
Publication of CN111427996A publication Critical patent/CN111427996A/zh
Application granted granted Critical
Publication of CN111427996B publication Critical patent/CN111427996B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种人机交互文本中抽取日期时间的方法和装置。该方法包括以下步骤:S101,分割文本为若干文本段;S102,计算意图文本和各个分割的文本段的语义相似度;S103,比较所述各个分割的文本段语义相似度和阈值;S104,如果所述各个分割的文本段中任一分割的文本段的语义相似度大于阈值,则将所述任一分割的文本段所包含的时间文本标准化时间戳,生成应答返回。本发明的人机交互文本中抽取日期时间的方法,在外呼的多轮对话场景中,通过NLP中NER对用户的说话的文本打上time的时间标签,然后通过语义相似度模型匹配用户表达的意图,两者结合,就可以很好提高业务时间槽位抽取精确率,提升产品的交互体验。

Description

一种人机交互文本中抽取日期时间的方法和装置
技术领域
本发明涉及人机交互技术领域,尤其涉及一种人机交互文本中抽取日期时间的方法和装置。
背景技术
在外呼的多轮交互场景中,由于业务的需要提取用户在某一轮交互中时间的信息,例如:催收场景中需要提取用户具体的还款时间,以便业务判断是否有逾期的风险。通过对时间的词典的进行模型训练,利用命名实体识别(NER)对于时间文本打上time的标签,如果是多个时间情况下,则以时间标签为分隔符进行分句,然后利用相识度模型进行相似度计算,可以选定初始阈值0.8(可以根据实际测试值云端配置),如果匹配到关键字或着相似度大于阈值,就认为是抽取时间是业务所需要的时间,然后在标准化具体的时间戳返回。
通过自然语言处理(NLP)中的命名实体识别(NER)打上time标签,然后对于用户中的对话中文本提取时间的文本,在用户说话的文本如果含有有多个时间标签,这样抽取的时间信息,不仅不能有效的区分到底是否是业务需要的时间,并且严重影踪用户体验,甚至引起用户的投诉。
发明内容
为了解决上述问题,本发明基于自然语言处理(NLP)中的命名实体识别(NER)基础上,加上关键字或相似度模型的匹配来完成业务时间槽位准确抽取的方法,初始阈值0.8,在经过NER分析处理打上time的标签,可以抽取用户的说话文本是否带有时间的,在多个时间标签情况下,按时间标签分割成多个文本,然后将意图文本(例如:还款时间等)和分割的文本段进行语义相似度模型的计算,判断分数是否达到阈值,如果大于阈值则判读该段文本所包含的时间文本是业务需要的,那么这样抽取出来时间文本就更加精准和有效。
本发明的第一方面在于提供一种人机交互文本中抽取日期时间的方法,包括以下步骤:
S101,分割文本为若干文本段;
S102,计算意图文本和各个分割的文本段的语义相似度;
S103,比较所述各个分割的文本段语义相似度和阈值;
S104,如果所述各个分割的文本段中任一分割的文本段的语义相似度大于阈值,则将所述任一分割的文本段所包含的时间文本标准化时间戳,生成应答返回。
在本发明的一些实施方式中,所述S101中,包括以下步骤:
S1011,获取人机交互中用户说话的文本;
S1012,建立命名实体识别模型,并对时间的词典进行模型训练;
S1013,利用所述命名实体识别模型进行文本的基于自然语言处理中的命名实体识别,打上time标签;
S1014,以所述time标签为分隔符,将所述文本分割为若干文本段。
在本发明的一些实施方式中,所述S102中,包括以下步骤:
S1021,获取意图文本;
S1022,建立相似度模型;
S1023,利用所述相似度模型进行意图文本和各个分割的文本段的语义相似度的计算。
在本发明的一些实施方式中,所述S103中,包括以下步骤:
S1031,设置用于和所述各个分割的文本段语义相似度进行比较的初始的阈值;
S1032,分别进行所述各个分割的文本段语义相似度和阈值的比较。
在本发明的一些实施方式中,所述初始的阈值为0.8。
本发明的第二方面在于提供一种人机交互文本中抽取日期时间的装置,包括以下模块:
第一模块,用于分割文本为若干文本段;
第二模块,用于计算意图文本和各个分割的文本段的语义相似度;
第三模块,用于比较所述各个分割的文本段语义相似度和阈值;
第四模块,用于如果所述各个分割的文本段中任一分割的文本段的语义相似度大于阈值,则将所述任一分割的文本段所包含的时间文本标准化时间戳,生成应答返回。
在本发明的一些实施方式中,所述第一模块包括以下子模块:
第一子模块,用于获取人机交互中用户说话的文本;
第二子模块,用于建立命名实体识别模型,并对时间的词典进行模型训练;
第三子模块,用于利用所述命名实体识别模型进行文本的基于自然语言处理中的命名实体识别,打上time标签;
第四子模块,用于以所述time标签为分隔符,将所述文本分割为若干文本段。
在本发明的一些实施方式中,所述第二模块包括以下子模块:
第五子模块,用于获取意图文本;
第六子模块,用于建立相似度模型;
第七子模块,用于利用所述相似度模型进行意图文本和各个分割的文本段的语义相似度的计算。
在本发明的一些实施方式中,所述第三模块包括以下子模块:
第八子模块,用于设置用于和所述各个分割的文本段语义相似度进行比较的初始的阈值;
第九子模块,用于分别进行所述各个分割的文本段语义相似度和阈值的比较。
在本发明的一些实施方式中,所述初始的阈值为0.8。
本发明的有益效果:
本发明的人机交互文本中抽取日期时间的方法和装置,在外呼的多轮对话场景中,通过NLP中NER对用户的说话的文本打上time的时间标签,然后通过语义相似度模型匹配用户表达的意图,两者结合,就可以很好提高业务时间槽位抽取精确率,提升产品的交互体验。
附图说明
图1为本发明一种人机交互文本中抽取日期时间的方法的一些实施方式的结构示意图;
图2为本发明一种人机交互文本中抽取日期时间的装置的一些实施方式的结构示意图。
具体实施方式
以下对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
一种人机交互文本中抽取日期时间的方法,如图1所示,包括以下步骤:
S101,分割文本为若干文本段;
S102,计算意图文本和各个分割的文本段的语义相似度;
S103,比较所述各个分割的文本段语义相似度和阈值;
S104,如果所述各个分割的文本段中任一分割的文本段的语义相似度大于阈值,则将所述任一分割的文本段所包含的时间文本标准化时间戳,生成应答返回。
在一些实施方式中,所述S101中,包括以下步骤:
S1011,获取人机交互中用户说话的文本;
S1012,建立命名实体识别模型,并对时间的词典进行模型训练;
S1013,利用所述命名实体识别模型进行文本的基于自然语言处理中的命名实体识别,打上time标签;
S1014,以所述time标签为分隔符,将所述文本分割为若干文本段。
本实施例的人机交互文本中抽取日期时间的方法,在外呼的多轮对话场景中,通过NLP中NER对用户的说话的文本打上time的时间标签。如果具有多个分割的文本段,则,计算意图文本和各个分割的文本段的语义相似度然后通过语义相似度模型匹配用户表达的意图,两者结合,就可以很好提高业务时间槽位抽取精确率,提升产品的交互体验。
以催收为例:用户说“我今天有点忙后天还可以吗”
第一步:NLP对用户输入的文本分析处理,打上NER标签后的句子是
“我今天/time有点忙后天/time还可以吗”。
第二步:通过/time标签为分隔符,将文本分成三段,分别是“我”、“有点忙”、“还可以吗”,然后通过与“还款”这个意图语料语义相似度模型的进行计算,这里“还可以吗”可以匹配到还款的意图语料,如果达到相似度阈值,这个文本的前面时间标签“后天/time”就是业务所需要的准确时间信息。
在一些实施方式中,所述S102中,包括以下步骤:
S1021,获取意图文本;
S1022,建立相似度模型;
S1023,利用所述相似度模型进行意图文本和各个分割的文本段的语义相似度的计算。
在一些实施方式中,所述S103中,包括以下步骤:
S1031,设置用于和所述各个分割的文本段语义相似度进行比较的初始的阈值;
S1032,分别进行所述各个分割的文本段语义相似度和阈值的比较。
在一些实施方式中,所述初始的阈值为0.8。
一种人机交互文本中抽取日期时间的装置,如图2所示,包括以下模块:
第一模块,用于分割文本为若干文本段;
第二模块,用于计算意图文本和各个分割的文本段的语义相似度;
第三模块,用于比较所述各个分割的文本段语义相似度和阈值;
第四模块,用于如果所述各个分割的文本段中任一分割的文本段的语义相似度大于阈值,则将所述任一分割的文本段所包含的时间文本标准化时间戳,生成应答返回。
在一些实施方式中,所述第一模块包括以下子模块:
第一子模块,用于获取人机交互中用户说话的文本;
第二子模块,用于建立命名实体识别模型,并对时间的词典进行模型训练;
第三子模块,用于利用所述命名实体识别模型进行文本的基于自然语言处理中的命名实体识别,打上time标签;
第四子模块,用于以所述time标签为分隔符,将所述文本分割为若干文本段。
在一些实施方式中,所述第二模块包括以下子模块:
第五子模块,用于获取意图文本;
第六子模块,用于建立相似度模型;
第七子模块,用于利用所述相似度模型进行意图文本和各个分割的文本段的语义相似度的计算。
在一些实施方式中,所述第三模块包括以下子模块:
第八子模块,用于设置用于和所述各个分割的文本段语义相似度进行比较的初始的阈值;
第九子模块,用于分别进行所述各个分割的文本段语义相似度和阈值的比较。
在一些实施方式中,所述初始的阈值为0.8。
附图中的流程图和框图显示了根据本发明的实施例的方法和装置。其中,各个步骤以单独或组合执行,各个模块可以单独或组合由一个或多个单元来实现,实现方式包括但不限于通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现。
以上对本发明优选的具体实施方式和实施例作了详细说明,但是本发明并不限于上述实施方式和实施例,在本领域技术人员所具备的知识范围内,还可以在不脱离本发明构思的前提下作出各种变化。

Claims (10)

1.一种人机交互文本中抽取日期时间的方法,其特征在于,包括以下步骤:
S101,分割文本为若干文本段;
S102,计算意图文本和各个分割的文本段的语义相似度;
S103,比较所述各个分割的文本段语义相似度和阈值;
S104,如果所述各个分割的文本段中任一分割的文本段的语义相似度大于阈值,则将所述任一分割的文本段所包含的时间文本标准化时间戳,生成应答返回。
2.根据权利要求1所述的方法,其特征在于,所述S101中,包括以下步骤:
S1011,获取人机交互中用户说话的文本;
S1012,建立命名实体识别模型,并对时间的词典进行模型训练;
S1013,利用所述命名实体识别模型进行文本的基于自然语言处理中的命名实体识别,打上time标签;
S1014,以所述time标签为分隔符,将所述文本分割为若干文本段。
3.根据权利要求1或2所述的方法,其特征在于,所述S102中,包括以下步骤:
S1021,获取意图文本;
S1022,建立相似度模型;
S1023,利用所述相似度模型进行意图文本和各个分割的文本段的语义相似度的计算。
4.根据权利要求1-3任一所述的方法,其特征在于,所述S103中,包括以下步骤:
S1031,设置用于和所述各个分割的文本段语义相似度进行比较的初始的阈值;
S1032,分别进行所述各个分割的文本段语义相似度和阈值的比较。
5.根据权利要求1-4任一所述的方法,其特征在于,所述初始的阈值为0.8。
6.一种人机交互文本中抽取日期时间的装置,其特征在于,包括以下模块:
第一模块,用于分割文本为若干文本段;
第二模块,用于计算意图文本和各个分割的文本段的语义相似度;
第三模块,用于比较所述各个分割的文本段语义相似度和阈值;
第四模块,用于如果所述各个分割的文本段中任一分割的文本段的语义相似度大于阈值,则将所述任一分割的文本段所包含的时间文本标准化时间戳,生成应答返回。
7.根据权利要求6述的装置,其特征在于,所述第一模块包括以下子模块:
第一子模块,用于获取人机交互中用户说话的文本;
第二子模块,用于建立命名实体识别模型,并对时间的词典进行模型训练;
第三子模块,用于利用所述命名实体识别模型进行文本的基于自然语言处理中的命名实体识别,打上time标签;
第四子模块,用于以所述time标签为分隔符,将所述文本分割为若干文本段。
8.根据权利要求6或7所述的装置,其特征在于,所述第二模块包括以下子模块:
第五子模块,用于获取意图文本;
第六子模块,用于建立相似度模型;
第七子模块,用于利用所述相似度模型进行意图文本和各个分割的文本段的语义相似度的计算。
9.根据权利要求6-8任一所述的装置,其特征在于,所述第三模块包括以下子模块:
第八子模块,用于设置用于和所述各个分割的文本段语义相似度进行比较的初始的阈值;
第九子模块,用于分别进行所述各个分割的文本段语义相似度和阈值的比较。
10.根据权利要求6-9任一所述的装置,其特征在于,所述初始的阈值为0.8。
CN202010137150.2A 2020-03-02 2020-03-02 一种人机交互文本中抽取日期时间的方法和装置 Active CN111427996B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010137150.2A CN111427996B (zh) 2020-03-02 2020-03-02 一种人机交互文本中抽取日期时间的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010137150.2A CN111427996B (zh) 2020-03-02 2020-03-02 一种人机交互文本中抽取日期时间的方法和装置

Publications (2)

Publication Number Publication Date
CN111427996A true CN111427996A (zh) 2020-07-17
CN111427996B CN111427996B (zh) 2023-10-20

Family

ID=71547376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010137150.2A Active CN111427996B (zh) 2020-03-02 2020-03-02 一种人机交互文本中抽取日期时间的方法和装置

Country Status (1)

Country Link
CN (1) CN111427996B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183075A (zh) * 2020-10-10 2021-01-05 网易(杭州)网络有限公司 一种对话中的槽提取方法、装置、电子设备及存储介质
CN114240672A (zh) * 2021-12-15 2022-03-25 平安科技(深圳)有限公司 绿色资产的占比的识别方法及相关产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014115737A (ja) * 2012-12-06 2014-06-26 Nippon Telegr & Teleph Corp <Ntt> 画像辞書生成装置、画像辞書生成方法及びコンピュータプログラム
CN108197191A (zh) * 2017-12-27 2018-06-22 神思电子技术股份有限公司 一种多轮对话的场景意图中断方法
CN110209793A (zh) * 2019-06-18 2019-09-06 佰聆数据股份有限公司 一种用于智能识别文本语义的方法
CN110209791A (zh) * 2019-06-12 2019-09-06 百融云创科技股份有限公司 一种多轮对话智能语音交互系统及装置
WO2020006835A1 (zh) * 2018-07-03 2020-01-09 平安科技(深圳)有限公司 智能客服多轮问答方法、设备、存储介质及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014115737A (ja) * 2012-12-06 2014-06-26 Nippon Telegr & Teleph Corp <Ntt> 画像辞書生成装置、画像辞書生成方法及びコンピュータプログラム
CN108197191A (zh) * 2017-12-27 2018-06-22 神思电子技术股份有限公司 一种多轮对话的场景意图中断方法
WO2020006835A1 (zh) * 2018-07-03 2020-01-09 平安科技(深圳)有限公司 智能客服多轮问答方法、设备、存储介质及装置
CN110209791A (zh) * 2019-06-12 2019-09-06 百融云创科技股份有限公司 一种多轮对话智能语音交互系统及装置
CN110209793A (zh) * 2019-06-18 2019-09-06 佰聆数据股份有限公司 一种用于智能识别文本语义的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘耀;帅远华;龚幸伟;黄毅;: "基于领域本体的文本分割方法研究", 计算机科学, no. 01 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183075A (zh) * 2020-10-10 2021-01-05 网易(杭州)网络有限公司 一种对话中的槽提取方法、装置、电子设备及存储介质
CN112183075B (zh) * 2020-10-10 2023-06-30 网易(杭州)网络有限公司 一种对话中的槽提取方法、装置、电子设备及存储介质
CN114240672A (zh) * 2021-12-15 2022-03-25 平安科技(深圳)有限公司 绿色资产的占比的识别方法及相关产品
WO2023108985A1 (zh) * 2021-12-15 2023-06-22 平安科技(深圳)有限公司 绿色资产的占比的识别方法及相关产品
CN114240672B (zh) * 2021-12-15 2023-08-18 平安科技(深圳)有限公司 绿色资产的占比的识别方法及相关产品

Also Published As

Publication number Publication date
CN111427996B (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
CN110349564A (zh) 一种跨语言语音识别方法和装置
CN107491435B (zh) 基于计算机自动识别用户情感的方法及装置
CN105427858A (zh) 实现语音自动分类的方法及系统
CN107305541A (zh) 语音识别文本分段方法及装置
CN104462600A (zh) 实现来电原因自动分类的方法及装置
CN112951275B (zh) 语音质检方法、装置、电子设备及介质
CN111046656A (zh) 文本处理方法、装置、电子设备及可读存储介质
CN112966082A (zh) 音频质检方法、装置、设备以及存储介质
CN116108857B (zh) 信息抽取方法、装置、电子设备以及存储介质
US20220301547A1 (en) Method for processing audio signal, method for training model, device and medium
CN104538035A (zh) 一种基于Fisher超向量的说话人识别方法及系统
CN111427996B (zh) 一种人机交互文本中抽取日期时间的方法和装置
CN111079384B (zh) 一种用于智能质检服务禁语的识别方法及系统
CN112201253A (zh) 文字标记方法、装置、电子设备及计算机可读存储介质
CN111326142A (zh) 基于语音转文本的文本信息提取方法、系统和电子设备
CN114707515A (zh) 话术判别方法、装置、电子设备及存储介质
CN115831125A (zh) 语音识别方法、装置、设备、存储介质及产品
JP2011123565A (ja) Faq候補抽出システムおよびfaq候補抽出プログラム
CN114974294A (zh) 一种多模态语音通话信息抽取方法及系统
CN112466324A (zh) 一种情绪分析方法、系统、设备及可读存储介质
CN112241467A (zh) 一种音频查重的方法和装置
CN112506405A (zh) 一种基于互联网监管领域的人工智能语音大屏指挥方法
CN114078470A (zh) 模型处理方法及装置、语音识别方法及装置
CN112466286A (zh) 数据处理方法及装置、终端设备
CN111507085B (zh) 句型识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant