CN110969021A - 单轮对话中的命名实体识别方法、装置、设备及介质 - Google Patents

单轮对话中的命名实体识别方法、装置、设备及介质 Download PDF

Info

Publication number
CN110969021A
CN110969021A CN201911338110.8A CN201911338110A CN110969021A CN 110969021 A CN110969021 A CN 110969021A CN 201911338110 A CN201911338110 A CN 201911338110A CN 110969021 A CN110969021 A CN 110969021A
Authority
CN
China
Prior art keywords
data
named entity
entity recognition
model
round
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911338110.8A
Other languages
English (en)
Inventor
简仁贤
吴文杰
李强
刘影
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Emotibot Technologies Ltd
Original Assignee
Emotibot Technologies Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Emotibot Technologies Ltd filed Critical Emotibot Technologies Ltd
Priority to CN201911338110.8A priority Critical patent/CN110969021A/zh
Publication of CN110969021A publication Critical patent/CN110969021A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了单轮对话中的命名实体识别方法、装置、设备及介质,所述方法包括步骤一、采集单轮对话中发问方的一句问句数据,采集单轮对话中回答方的一句对问句数据进行回答的答句数据;步骤二、将步骤一中采集的问句数据和答句数据合成为一句单轮对话数据;步骤三、将步骤二中合成的一句单轮对话数据输入至命名实体识别模型,识别出答句数据的命名实体识别结果。本发明能够在一定程度上解决单轮对话中句子命名实体识别真歧义的问题。

Description

单轮对话中的命名实体识别方法、装置、设备及介质
技术领域
本发明属于计算机数据处理技术领域,尤其涉及一种单轮对话中的命名实体识别方法、装置、设备及介质。
背景技术
命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。现有的对话系统中的命名实体识别都是单句子的,并没有利用单轮对话中的信息。在对话系统中,用户的句子通常不会很长,所以在进行命名实体识别时候,单从当前的句子中是无法对一些有真歧义的专有词识别其类型的,比如有一个地名叫黄龙,有一个人名也叫黄龙,所以当一个句子是:“黄龙”时,这里的“黄龙”是标注成地名还是人名呢,如果从单句子看,标成哪一种类型都是对的,这个就是有真歧义的,目前是没有技术来解决的。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供单轮对话中的命名实体识别方法、装置、设备及介质,能够在一定程度上解决单轮对话中句子命名实体识别真歧义的问题。
为解决上述技术问题,本发明采用的技术方案是:本发明第一方面公开了一种单轮对话中的命名实体识别方法,包括以下步骤:
步骤一、采集单轮对话中发问方的一句问句数据,采集单轮对话中回答方的一句对问句数据进行回答的答句数据;
步骤二、将步骤一中采集的问句数据和答句数据合成为一句单轮对话数据;
步骤三、将步骤二中合成的一句单轮对话数据输入至命名实体识别模型,识别出答句数据的命名实体识别结果。
上述单轮对话中的命名实体识别方法,步骤三中命名实体识别模型为经过训练的序列标注算法模型。
上述单轮对话中的命名实体识别方法,所述序列标注算法模型为HMM模型、CRF模型或Deep Learning模型。
上述单轮对话中的命名实体识别方法,步骤三中将步骤二中合成的一句单轮对话数据输入至命名实体识别模型前,将单轮对话数据转换为文本数据,然后将该文本数据输入至命名实体识别模型。
本发明第二方面公开了一种单轮对话中的命名实体识别装置,包括数据采集模块、数据合成模块和命名实体识别模块;
所述数据采集模块,用于采集单轮对话中发问方的一句问句数据,还用于采集单轮对话中回答方的一句对问句数据进行回答的答句数据;
所述数据合成模块,用于将数据采集模块采集的问句数据和答句数据合成为一句单轮对话数据;
所述命名实体识别模块,用于将数据合成模块合成的一句单轮对话数据输入至命名实体识别模型,识别出答句数据的命名实体识别结果。
上述单轮对话中的命名实体识别装置,所述命名实体识别模型为经过训练的序列标注算法模型。
上述单轮对话中的命名实体识别装置,所述序列标注算法模型为HMM模型、CRF模型或Deep Learning模型。
上述单轮对话中的命名实体识别装置,所述命名实体识别模块包括数据转换单元,所述数据转换单元用于将数据合成模块合成的一句单轮对话数据转换为文本数据,然后输入至命名实体识别模型。
本发明第三方面公开了一种命名实体识别设备,其中所述设备包括自然语言数据采集装置、处理器和存储器,所述存储器包含一组指令,所述一组指令在由所述处理器执行时使所述命名实体识别设备执行如第一方面公开的命名实体识别方法。
本发明第四方面公开了一种计算机可读存储介质,其上存储有计算机可读的指令,当利用计算机执行所述指令时执行如第一方面公开的命名实体识别方法。
本发明与现有技术相比具有以下优点:本发明通过采集单轮对话中发问方的一句问句数据和回答方的答句数据;将问句数据和答句数据合成为一句单轮对话数据输入至命名实体识别模型,识别出答句数据的命名实体识别结果;能够在一定程度上避免答句数据命名实体识别时,出现真歧义的问题。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明实施例的命名实体识别方法流程图。
图2为本发明实施例的命名实体识别装置原理框图。
具体实施方式
实施例1
如图1所示,一种单轮对话中的命名实体识别方法,包括以下步骤:
步骤一、采集单轮对话中发问方的一句问句数据,采集单轮对话中回答方的一句对问句数据进行回答的答句数据;
步骤二、将步骤一中采集的问句数据和答句数据合成为一句单轮对话数据;
步骤三、将步骤二中合成的一句单轮对话数据输入至命名实体识别模型,识别出答句数据的命名实体识别结果。
需要说明的是,假设一段单轮对话为“发问方:你打电话给谁呢?回答方:黄龙”,另一段对话单轮对话为“发问方:你想去哪里玩呢?回答方:黄龙”;从以上两段单轮对话不难看出,第一段单轮对话中的“黄龙”为人名,第二段单轮对话中的“黄龙”为地名,若从“黄龙”这单个句子看,是很难确定将“黄龙”标注成人名还是地名的。
本实施例中,所述命名实体识别方法,通过在对单轮对话中的问句数据和答句数据整合成一句单轮对话数据输入至命名实体识别模型中,识别出答句数据的命名实体识别结果,能够在一定程度上避免出现真歧义的问题。例如在对第二段单轮对话中的“黄龙”进行命名实体识别时,将“发问方:你想去哪里玩呢?回答方:黄龙”整体输入到命名实体识别模型中,即可得出“黄龙”标注成地名的命名实体识别结果。
本实施例中,步骤三中命名实体识别模型为经过训练的序列标注算法模型。系列标注算法模型在训练时,采用把单轮对话中的发问方的问句数据和回答方的答句数据合成为一句单轮对话数据,并作为一条训练语料去训练。这样使得在调用命名实体识别模型进行命名实体识别操作的时候,对输入的一句单轮对话数据,能够准确识别出答句数据的命名实体识别结果。
本实施例中,所述序列标注算法模型为HMM模型、CRF模型或Deep Learning模型。
本实施例中,步骤三中将步骤二中合成的一句单轮对话数据输入至命名实体识别模型前,将单轮对话数据转换为文本数据,然后将该文本数据输入至命名实体识别模型。
需要说明的是,所述单轮对话数据为语音数据或文本数据,还可以为其他类型的数据。当单轮对话数据为语音数据时,通过语音识别技术将语音数据转换为文本数据;当单轮对话数据为文本数据时,则无需进行数据转换;当单轮对话数据为其他类型的数据时,采用相对应的技术将单轮对话数据转换为文本数据。
实施例2
如图2所示,一种单轮对话中的命名实体识别装置,包括数据采集模块、数据合成模块和命名实体识别模块;
所述数据采集模块,用于采集单轮对话中发问方的一句问句数据,还用于采集单轮对话中回答方的一句对问句数据进行回答的答句数据;
所述数据合成模块,用于将数据采集模块采集的问句数据和答句数据合成为一句单轮对话数据;
所述命名实体识别模块,用于将数据合成模块合成的一句单轮对话数据输入至命名实体识别模型,识别出答句数据的命名实体识别结果。
需要说明的是,假设一段单轮对话为“发问方:你打电话给谁呢?回答方:黄龙”,另一段对话单轮对话为“发问方:你想去哪里玩呢?回答方:黄龙”;从以上两段单轮对话不难看出,第一段单轮对话中的“黄龙”为人名,第二段单轮对话中的“黄龙”为地名,若从“黄龙”这单个句子看,是很难确定将“黄龙”标注成人名还是地名的。
本实施例中,所述命名实体识别装置,通过在对单轮对话中的问句数据和答句数据整合成一句单轮对话数据输入至命名实体识别模型中,识别出答句数据的命名实体识别结果,能够在一定程度上避免出现真歧义的问题。例如在对第二段单轮对话中的“黄龙”进行命名实体识别时,将“发问方:你想去哪里玩呢?回答方:黄龙”整体输入到命名实体识别模型中,即可得出“黄龙”标注成地名的命名实体识别结果。
本实施例中,所述数据采集模块为语音采集模块,例如麦克风。
本实施例中,所述命名实体识别模型为经过训练的序列标注算法模型。系列标注算法模型在训练时,采用把单轮对话中的发问方的问句数据和回答方的答句数据合成为一句单轮对话数据,并作为一条训练语料去训练。这样使得在调用命名实体识别模型进行命名实体识别操作的时候,对输入的一句单轮对话数据,能够准确识别出答句数据的命名实体识别结果。
本实施例中,所述序列标注算法模型为HMM模型、CRF模型或Deep Learning模型。
本实施例中,所述命名实体识别模块包括数据转换单元,所述数据转换单元用于将数据合成模块合成的一句单轮对话数据转换为文本数据,然后输入至命名实体识别模型。
本实施例中,所述数据转换单元为将语音数据转换为文本数据的语音识别单元,所述数据转换单元通过语音识别技术实现。
实施例3
一种命名实体识别设备,其中所述设备包括自然语言数据采集装置和一个或多个专用或通用的计算机处理系统模块或部件;一个或多个专用或通用的计算机处理系统模块或部件其可以包括至少一个处理器及存储器。所述存储器包含一组指令,所述一组指令在由所述处理器执行时使所述命名实体识别设备执行上述实施例1中所述的方法。
本实施例中,自然语言数据采集装置为语音采集装置,例如麦克风组件,其可包括麦克风、麦克风套管、安装杆、连接线等;其也可为无线麦克风或麦克风电路。一个或多个专用或通用的计算机处理系统模块或部件可以是例如个人电脑、笔记本电脑、平板电脑、手机、个人数码助理(personaldigital assistance,PDA)、智能眼镜、智能手表、智能指环、智能头盔及任何智能便携设备。
实施例4
一种计算机可读存储介质,其上存储有计算机可读的指令,当利用计算机执行所述指令时执行上述实施例1中所述的方法。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何限制,凡是根据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效结构变化,均仍属于本发明技术方案的保护范围内。

Claims (10)

1.单轮对话中的命名实体识别方法,其特征在于:包括以下步骤:
步骤一、采集单轮对话中发问方的一句问句数据,采集单轮对话中回答方的一句对问句数据进行回答的答句数据;
步骤二、将步骤一中采集的问句数据和答句数据合成为一句单轮对话数据;
步骤三、将步骤二中合成的一句单轮对话数据输入至命名实体识别模型,识别出答句数据的命名实体识别结果。
2.按照权利要求1所述的单轮对话中的命名实体识别方法,其特征在于:步骤三中命名实体识别模型为经过训练的序列标注算法模型。
3.按照权利要求2所述的单轮对话中的命名实体识别方法,其特征在于:所述序列标注算法模型为HMM模型、CRF模型或Deep Learning模型。
4.按照权利要求1所述的单轮对话中的命名实体识别方法,其特征在于:步骤三中将步骤二中合成的一句单轮对话数据输入至命名实体识别模型前,将单轮对话数据转换为文本数据,然后将该文本数据输入至命名实体识别模型。
5.单轮对话中的命名实体识别装置,其特征在于:包括数据采集模块、数据合成模块和命名实体识别模块;
所述数据采集模块,用于采集单轮对话中发问方的一句问句数据,还用于采集单轮对话中回答方的一句对问句数据进行回答的答句数据;
所述数据合成模块,用于将数据采集模块采集的问句数据和答句数据合成为一句单轮对话数据;
所述命名实体识别模块,用于将数据合成模块合成的一句单轮对话数据输入至命名实体识别模型,识别出答句数据的命名实体识别结果。
6.按照权利要求5所述的单轮对话中的命名实体识别装置,其特征在于:所述命名实体识别模型为经过训练的序列标注算法模型。
7.按照权利要求6所述的单轮对话中的命名实体识别装置,其特征在于:所述序列标注算法模型为HMM模型、CRF模型或Deep Learning模型。
8.按照权利要求5所述的单轮对话中的命名实体识别装置,其特征在于:所述命名实体识别模块包括数据转换单元,所述数据转换单元用于将数据合成模块合成的一句单轮对话数据转换为文本数据,然后输入至命名实体识别模型。
9.一种命名实体识别设备,其中所述设备包括自然语言数据采集装置、处理器和存储器,所述存储器包含一组指令,所述一组指令在由所述处理器执行时使所述命名实体识别设备执行上述权利要求1-4中任意一项权利要求所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机可读的指令,当利用计算机执行所述指令时执行上述权利要求1-4中任意一项权利要求所述的方法。
CN201911338110.8A 2019-12-23 2019-12-23 单轮对话中的命名实体识别方法、装置、设备及介质 Pending CN110969021A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911338110.8A CN110969021A (zh) 2019-12-23 2019-12-23 单轮对话中的命名实体识别方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911338110.8A CN110969021A (zh) 2019-12-23 2019-12-23 单轮对话中的命名实体识别方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN110969021A true CN110969021A (zh) 2020-04-07

Family

ID=70035836

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911338110.8A Pending CN110969021A (zh) 2019-12-23 2019-12-23 单轮对话中的命名实体识别方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN110969021A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861534A (zh) * 2021-01-18 2021-05-28 北京奇艺世纪科技有限公司 一种对象名称识别方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001306090A (ja) * 2000-04-25 2001-11-02 Sharp Corp 対話装置および方法、音声制御装置および方法、ならびにコンピュータを対話装置および音声制御装置として機能させるためのプログラムをそれぞれ記録したコンピュータ読取可能な記録媒体
CN101599071A (zh) * 2009-07-10 2009-12-09 华中科技大学 对话文本主题的自动提取方法
CN108959482A (zh) * 2018-06-21 2018-12-07 北京慧闻科技发展有限公司 基于深度学习的单轮对话数据分类方法、装置和电子设备
WO2019071661A1 (zh) * 2017-10-09 2019-04-18 平安科技(深圳)有限公司 电子装置、医疗文本实体命名的识别方法、系统及存储介质
CN109885664A (zh) * 2019-01-08 2019-06-14 厦门快商通信息咨询有限公司 一种智能对话方法、机器人对话系统、服务器及存储介质
CN110188175A (zh) * 2019-04-29 2019-08-30 厦门快商通信息咨询有限公司 一种基于BiLSTM-CRF模型的问答对抽取方法、系统及存储介质
CN110555206A (zh) * 2018-06-01 2019-12-10 中兴通讯股份有限公司 一种命名实体识别方法、装置、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001306090A (ja) * 2000-04-25 2001-11-02 Sharp Corp 対話装置および方法、音声制御装置および方法、ならびにコンピュータを対話装置および音声制御装置として機能させるためのプログラムをそれぞれ記録したコンピュータ読取可能な記録媒体
CN101599071A (zh) * 2009-07-10 2009-12-09 华中科技大学 对话文本主题的自动提取方法
WO2019071661A1 (zh) * 2017-10-09 2019-04-18 平安科技(深圳)有限公司 电子装置、医疗文本实体命名的识别方法、系统及存储介质
CN110555206A (zh) * 2018-06-01 2019-12-10 中兴通讯股份有限公司 一种命名实体识别方法、装置、设备及存储介质
CN108959482A (zh) * 2018-06-21 2018-12-07 北京慧闻科技发展有限公司 基于深度学习的单轮对话数据分类方法、装置和电子设备
CN109885664A (zh) * 2019-01-08 2019-06-14 厦门快商通信息咨询有限公司 一种智能对话方法、机器人对话系统、服务器及存储介质
CN110188175A (zh) * 2019-04-29 2019-08-30 厦门快商通信息咨询有限公司 一种基于BiLSTM-CRF模型的问答对抽取方法、系统及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
费建军: "智能问答系统中命名实体识别问题研究", 《数字技术与应用》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861534A (zh) * 2021-01-18 2021-05-28 北京奇艺世纪科技有限公司 一种对象名称识别方法及装置
CN112861534B (zh) * 2021-01-18 2023-07-21 北京奇艺世纪科技有限公司 一种对象名称识别方法及装置

Similar Documents

Publication Publication Date Title
CN111477216B (zh) 一种用于对话机器人的音意理解模型的训练方法及系统
US8204748B2 (en) System and method for providing a textual representation of an audio message to a mobile device
CN110457689B (zh) 语义处理方法及相关装置
CN100349206C (zh) 文字语音互转装置
CN103578464A (zh) 语言模型的建立方法、语音辨识方法及电子装置
CN104078044A (zh) 移动终端及其录音搜索的方法和装置
CN103456297A (zh) 一种语音识别匹配的方法和设备
CN102939791A (zh) 用于具有听觉、言语和视觉障碍的人的手持式通信辅助器
CN104202455A (zh) 智能语音拨号的方法及装置
CN1901041B (zh) 语音字典形成方法、语音识别系统及其方法
KR20150094419A (ko) 통화 기록 제공 장치 및 방법
CN112463942A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
Abid et al. Speak Pakistan: Challenges in developing Pakistan sign language using information technology
CN111063355A (zh) 会议记录的生成方法及记录终端
WO2021179703A1 (zh) 一种手语翻译方法、装置、计算机设备及存储介质
CN110675866A (zh) 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
CN104361787A (zh) 信号转换系统和信号转换方法
KR20140123369A (ko) 음성인식 질의응답 시스템 및 그것의 운용방법
CN113268981B (zh) 一种信息处理方法、装置及电子设备
CN108304391A (zh) 一种基于gps定位的自适应翻译机
Ramadani et al. A new technology on translating Indonesian spoken language into Indonesian sign language system.
CN110705907A (zh) 一种基于音频语音处理技术的课堂教学辅助督导方法及系统
CN110969021A (zh) 单轮对话中的命名实体识别方法、装置、设备及介质
CN113505609A (zh) 一种一键式多语言会议辅助翻译方法及具有该方法的设备
CN112734604A (zh) 一种提供多模态智能报案的装置及其笔录生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200407

RJ01 Rejection of invention patent application after publication