CN115577090B - 基于成语理解的语音对话方法、装置、设备及存储介质 - Google Patents
基于成语理解的语音对话方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115577090B CN115577090B CN202211560755.8A CN202211560755A CN115577090B CN 115577090 B CN115577090 B CN 115577090B CN 202211560755 A CN202211560755 A CN 202211560755A CN 115577090 B CN115577090 B CN 115577090B
- Authority
- CN
- China
- Prior art keywords
- idiom
- sentence
- role
- robot
- conversation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种基于成语理解的语音对话方法、装置、设备及存储介质。该方法包括:获取包含对话内容的原始文本,对原始文本进行成语检测,得到成语及成语解释;对成语中的每个字进行扩展得到候选句子,将成语解释与每个候选句子进行相似度匹配,依据相似度匹配结果确定成语对应的成语句子;对成语句子进行分析,得到成语句子的主语,将成语句子的主语作为机器人对应的成语角色;将原始文本中包含成语的语句作为目标语句,将目标语句中的主语或宾语作为机器人的对话角色;将机器人的成语角色与对话角色进行关联,依据角色关联结果生成对话信息。本申请能够实现包含成语句子场景下的人机对话,提高语音对话的应用范围,提升语音对话的智能化水平。
Description
技术领域
本申请涉及语音对话技术领域,尤其涉及一种基于成语理解的语音对话方法、装置、设备及存储介质。
背景技术
随着数字化和智能化技术在各个领域的深入发展,更多的智能化设备在生活中发挥作用。各种智能的语音设备,如智能音箱、智能手机、智能机器人等设备都已经支持语音的对话。在人与机器人的语音对话中,除了一些常有的任务指令和问答外,闲聊类的对话也越来越多。
现有技术中,很多时候用户会使用一些成语和机器人进行交流,在机器人回答的时候,也希望机器人尽可能实现拟人化和人格化的对答,然而要达到这样的效果需要机器人知道自己在成语中的角色;但是,目前的语音识别和对话技术,无法实现对成语的理解以及确认机器人与成语中角色的关系。因此,导致现有的人机语音对话方法无法实现成语句子场景下的人机对话,降低了语音对话的应用范围,语音对话的智能化水平不够高。
发明内容
有鉴于此,本申请实施例提供了一种基于成语理解的语音对话方法、装置、设备及存储介质,以解决现有技术存在的无法实现成语句子场景下的人机对话,降低了语音对话方法的使用范围,语音对话的智能化水平不够高的问题。
本申请实施例的第一方面,提供了一种基于成语理解的语音对话方法,包括:获取包含对话内容的原始文本,对原始文本进行成语检测,得到成语及成语的成语解释;对成语中的每个字进行扩展,得到若干个候选句子,将成语解释与每个候选句子进行相似度匹配,依据相似度匹配结果确定成语对应的成语句子;对成语句子进行分析,得到成语句子的主语,将成语句子的主语作为机器人对应的成语角色;将原始文本中包含成语的语句作为目标语句,将目标语句中的主语或宾语作为机器人的对话角色;将机器人的成语角色与对话角色进行关联,依据角色关联结果生成对话信息。
本申请实施例的第二方面,提供了一种基于成语理解的语音对话装置,包括:检测模块,被配置为获取包含对话内容的原始文本,对原始文本进行成语检测,得到成语及成语的成语解释;扩展模块,被配置为对成语中的每个字进行扩展,得到若干个候选句子,将成语解释与每个候选句子进行相似度匹配,依据相似度匹配结果确定成语对应的成语句子;分析模块,被配置为对成语句子进行分析,得到成语句子的主语,将成语句子的主语作为机器人对应的成语角色;确定模块,被配置为将原始文本中包含成语的语句作为目标语句,将目标语句中的主语或宾语作为机器人的对话角色;关联模块,被配置为将机器人的成语角色与对话角色进行关联,依据角色关联结果生成对话信息。
本申请实施例的第三方面,提供了一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述方法的步骤。
本申请实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
通过获取包含对话内容的原始文本,对原始文本进行成语检测,得到成语及成语的成语解释;对成语中的每个字进行扩展,得到若干个候选句子,将成语解释与每个候选句子进行相似度匹配,依据相似度匹配结果确定成语对应的成语句子;对成语句子进行分析,得到成语句子的主语,将成语句子的主语作为机器人对应的成语角色;将原始文本中包含成语的语句作为目标语句,将目标语句中的主语或宾语作为机器人的对话角色;将机器人的成语角色与对话角色进行关联,依据角色关联结果生成对话信息。本申请能够实现包含成语句子场景下的人机对话,提高语音对话的应用范围,提升语音对话的智能化水平。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本申请实施例提供的基于成语理解的语音对话方法的流程示意图;
图2是本申请实施例提供的基于成语理解的语音对话装置的结构示意图;
图3是本申请实施例提供的电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
如背景技术所述,在人机对话过程中,除了一些常有的任务指令和问答外,闲聊类的对话也越来越多。很多时候,用户会使用一些成语和机器人进行交流,例如“难住了吧,是不是黔驴技穷了”。在机器人对应回答的时候,希望机器人能够实现拟人化、人格化的回答,需要机器人知道用户对话里面的“黔驴”指的就是机器人自己。
然而,要达到这样的效果就需要机器人知道自己在成语中的角色,但是,目前的语音识别和对话技术,无法实现对成语的理解以及确认机器人与成语中角色的关系。因此,导致现有的人机语音对话方法无法实现成语句子场景下的人机对话,降低了语音对话的应用范围,语音对话的智能化水平也不够高。
鉴于现有技术中存在的问题,本申请提出一种基于成语理解的语音对话方法,本申请能够实现在多轮对话的场景下,对可能存在的成语进行理解以及对角色的指定关系进行处理。本申请通过成语理解与角色带入的方法,利用成语内部的字词关系进行扩展描述,得到成语角色的结果后,将成语角色和机器人本身的角色相关联。使机器人能够知道自己在对话语句以及成语中的角色,从而帮助机器人继续完成对话,本申请能够生成丰富的带有成语角色关联的对话语句,使用户与机器人之间的对话更加准确和智能。
图1是本申请实施例提供的基于成语理解的语音对话方法的流程示意图。图1的基于成语理解的语音对话方法可以由机器人或服务器执行。如图1所示,该基于成语理解的语音对话方法具体可以包括:
S101,获取包含对话内容的原始文本,对原始文本进行成语检测,得到成语及成语的成语解释;
S102,对成语中的每个字进行扩展,得到若干个候选句子,将成语解释与每个候选句子进行相似度匹配,依据相似度匹配结果确定成语对应的成语句子;
S103,对成语句子进行分析,得到成语句子的主语,将成语句子的主语作为机器人对应的成语角色;
S104,将原始文本中包含成语的语句作为目标语句,将目标语句中的主语或宾语作为机器人的对话角色;
S105,将机器人的成语角色与对话角色进行关联,依据角色关联结果生成对话信息。
具体地,本申请实施例的原始文本是指用户与机器人进行一段连续对话时所产生的对话文本,原始文本中包含用户与机器人之间若干轮交互的语句,每次交互中都会产生用户进行咨询或者问答的句子,因此原始文本也可以称为基础文本,名词上的替换不构成对本申请技术方案的限定。本申请的成语是指当前公知的成语词典中所包含的成语,例如成语“黔驴技穷”等,本申请以下实施例是以某一特定场景下的用户与机器人之间对话时所产生的文本为例进行说明的,应当理解的是,以下实施例中的语句以及成语不构成对本申请技术方案的限定。
在一些实施例中,获取包含对话内容的原始文本,对原始文本进行成语检测,得到成语及成语的成语解释,包括:获取用户与机器人的多轮对话,将多轮对话的内容作为原始文本;对原始文本进行句子分割,得到原始文本对应的语句;利用预设的成语词典对语句执行查找操作,得到语句中的成语及成语对应的成语解释。
具体地,在用户与机器人之间的一段连续对话中,包含了若干轮次的交互,每次交互中都会产生用户进行咨询或者问答的句子,本申请将原始文本记作,可以表示为,其中,k表示句子序号,n表示基础文本(即原始文本)中的句子数,在对原始文本进行句子分割时,可以将文本中的句号、分号、问号、叹号等作为分割依据。
例如,在一个具体实施例中,假设用户与机器人之间的一段连续对话包括以下内容:
机器人:您好,我是机器人格格,有什么可以帮您的。
用户:能不能给我唱歌。
机器人:好的,那我就唱啦。
用户:再给我跳个舞。
机器人:这个我可做不到。
用户:哈哈,你这是不是黔驴技穷了。
对上述对话的原始文本进行句子分割之后,得到原始文本对应的语句,该语句可以表示为{“能不能给我唱歌”,“再给我跳个舞”,“哈哈,你这是不是黔驴技穷了”}。
进一步地,在得到原始文本对应的语句之后,利用当前公知的成语词典对语句执行查找操作,从成语词典中查找上述语句中可能存在的成语,例如上述语句中存在以下成语“黔驴技穷”,将查找到的成语记作。在查找成语的同时,获取成语词典中对该成语的成语解释,例如:“黔驴技穷”的解释为“黔地的驴本领穷尽了,比喻极为有限的一点本领也用尽了。”
在一些实施例中,对成语中的每个字进行扩展,得到若干个候选句子,包括:对成语进行切字,利用字典或辞典查找每个字对应的释义以及释义对应的组词,对组词进行排列组合,得到多个候选句子。
具体地,在获得原始文本中的成语之后,对成语进行解释扩展,得到成语的句子表述(即候选句子),首先对成语进行切字,例如一个成语可以表示为,其中i表示第i个成语,k表示字序号,max表示允许成语最大的字的个数,本申请取max为8,如果超过此长度,则对后面的字进行截断。
进一步地,对于成语中的每个字进行扩展,在实际应用中,扩展的方式通过查找字典(如新华字典)或辞典(如辞海),找到每个字的释义和常见的组词,依次进行拼接。如果出现了多义词,则枚举所有的情况,进行排列组合,最终组成若干个候选句子,将候选句子集合表示为。
例如,在一个具体实施例中,“黔驴技穷”中的“黔”字通过查字典得到“贵州”或者“黑色”的两种释义,这两种释义也作为该释义对应的组词;“驴”字通过查字典得到“驴子”的释义,这种释义解释也作为该释义对应的组词;“技”得到“才能”的释义,这种释义也作为该释义对应的组词;“穷”字通过查字典得到“贫穷”、“处境恶劣”、“穷尽”这三种释义,这三种释义也作为该释义对应的组词。将上述所有字对应释义的组词进行排列组合,得到种组合的候选句子。这6个候选句子分别为“贵州驴子才能贫穷”、“贵州驴子才能处境恶劣”、“贵州驴子才能穷尽”、“黑色驴子才能贫穷”、“黑色驴子才能处境恶劣”、“黑色驴子才能穷尽”。
在一些实施例中,将成语解释与每个候选句子进行相似度匹配,依据相似度匹配结果确定成语对应的成语句子,包括:利用预设的句子匹配工具,分别计算成语解释与每个候选句子之间的相似度,得到每个候选句子的相似度评分,将相似度评分最高的候选句子作为成语的成语句子。
具体地,在得到多个候选句子之后,对扩展的候选句子集合进行筛选,本申请采用句子相似度匹配的方式进行语义的匹配和筛选。首先,获取成语对应的成语解释,成语解释可以通过查找成语字典,得到成语的解释,成语解释一般为文本,可能有本意和引申义,将成语解释记做。
进一步地,利用句子匹配工具,例如:Sentence-BERT,Sentence-vec等,计算成语解释与候选句子集合中的每个扩展的候选句子计算相似度,得到每个候选句子的相似度评分,将相似度评分最高的候选句子作为该成语的最终句子表述(即成语句子),例如:将“黔驴技穷”的成语解释与上述6个候选句子分别计算相似度,其中“贵州驴子才能穷尽”成为相似度评分最高的句子,因此将“贵州驴子才能穷尽”作为成语“黔驴技穷”的成语句子。
在一些实施例中,对成语句子进行分析,得到成语句子的主语,将成语句子的主语作为机器人对应的成语角色,包括:利用依存句法分析方法或者语义角色标注方法,对成语句子中的词语之间的关联关系进行分析,得到成语句子的主谓宾结构,将成语句子的主语作为机器人对应的成语角色。
具体地,在确定成语对应的成语句子之后,即将成语转化为较为完整的句子后,就可以对其进行深度的分析,得到机器人在成语中的角色信息。在实际应用中,成语句子的分析可以采用依存句法分析方法得到句子中的主谓宾结构,也可以采用语义角色标注方法来得到句子中的主谓宾结构。下面以依存句法分析方法为例,对成语句子的分析过程进行详细说明,具体可以包括以下内容:
依存句法分析是用来分析一句话中内部词语的关联关系,得到词语之间的“依存”关系,并且依据句子的主要谓词,得到对应的主语。以用户与机器人之间的对话文本为例,依存句法分析包括如下处理:
(2)对每句话进行依存句法分析,利用开源的依存句法分析器(例如Zpar等工具),可以对每句话进行句法分析对识别,对识别的结果,得到其中的主语。例如:前述实施例中的成语句子“贵州驴子才能穷尽”的句法分析结果为:句子的核心动词为“穷尽”,对应的主语为“驴子”,“贵州”作为修饰语存在,修饰“驴子”。
在一些实施例中,该方法还包括:确定目标语句中的指代词,依据最近优先原则,将目标语句中距离指代词最近的主语或宾语提取出来,并将目标语句中提取出来的主语或宾语作为机器人的对话角色。
具体地,根据成语所在的对话,确认机器人在对话中的角色,首先将原始文本中包含成语的语句作为目标语句,例如将前述实施例中的句子“哈哈,你这是不是黔驴技穷了”作为目标语句。
进一步地,确定目标语句中的指代关系(指代词),这里特别关注目标语句中的“代词”,在实际应用中,可以利用依存分析器对目标语句进行分析,确定目标语句中的“代词”,或者利用代词辞典对目标语句进行匹配,得到其中的代词,例如上述目标语句中的代词为“你”。
进一步地,当前面的成语和指代关系都存在的话,利用最近优先原则,将目标语句中离代词最近的主语或者宾语提取出来,将目标语句中提取出来的主语或者宾语作为机器人的对话角色。
在一些实施例中,将机器人的成语角色与对话角色进行关联,依据角色关联结果生成对话信息,包括:依据成语句子的主语和目标语句中提取出来的主语或宾语,对机器人的成语角色与对话角色进行关联,依据为机器人关联的角色,生成用于回答目标语句的对话语句。
具体地,在确定机器人的成语角色及对话角色之后,将机器人的成语角色与对话角色进行关联,例如前述实施例中机器人的成语角色为“驴子”,对话角色为“你”。通过建立成语角色与对话角色之间的关联关系,可以让机器人知道成语中的“驴子”就是指机器人自己。
最后,依据角色的关联结果生成会话信息,即依据为机器人关联的角色信息,帮助机器人继续完成对话,进而可以生成类似“我才不是驴子”,“确实我有点笨,像是驴子一样”这样丰富的带有成语角色关联的对话语句。
根据本申请实施例提供的技术方案,本申请通过将简单的四字成语进行解释扩展为一句比较完整的句子表述,在成语句子的基础上进行深度的句法语义分析,得到句法或者语义角色信息,并且根据成语所在的对话,确认机器人在对话中的角色信息,从而得到机器人在成语及对话中的角色关系,将机器人成语角色和对话角色进行关联,并带入到后续的对话中,使机器人能够实现拟人化和人格化的回答。本申请能够实现包含成语句子场景下的人机对话,提高语音对话的应用范围,提升语音对话的智能化水平。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图2是本申请实施例提供的基于成语理解的语音对话装置的结构示意图。如图2所示,该基于成语理解的语音对话装置包括:
检测模块201,被配置为获取包含对话内容的原始文本,对原始文本进行成语检测,得到成语及成语的成语解释;
扩展模块202,被配置为对成语中的每个字进行扩展,得到若干个候选句子,将成语解释与每个候选句子进行相似度匹配,依据相似度匹配结果确定成语对应的成语句子;
分析模块203,被配置为对成语句子进行分析,得到成语句子的主语,将成语句子的主语作为机器人对应的成语角色;
确定模块204,被配置为将原始文本中包含成语的语句作为目标语句,将目标语句中的主语或宾语作为机器人的对话角色;
关联模块205,被配置为将机器人的成语角色与对话角色进行关联,依据角色关联结果生成对话信息。
在一些实施例中,图2的检测模块201获取用户与机器人的多轮对话,将多轮对话的内容作为原始文本;对原始文本进行句子分割,得到原始文本对应的语句;利用预设的成语词典对语句执行查找操作,得到语句中的成语及成语对应的成语解释。
在一些实施例中,图2的扩展模块202对成语进行切字,利用字典或辞典查找每个字对应的释义以及释义对应的组词,对组词进行排列组合,得到多个候选句子。
在一些实施例中,图2的扩展模块202利用预设的句子匹配工具,分别计算成语解释与每个候选句子之间的相似度,得到每个候选句子的相似度评分,将相似度评分最高的候选句子作为成语的成语句子。
在一些实施例中,图2的分析模块203利用依存句法分析方法或者语义角色标注方法,对成语句子中的词语之间的关联关系进行分析,得到成语句子的主谓宾结构,将成语句子的主语作为机器人对应的成语角色。
在一些实施例中,图2的确定模块204确定目标语句中的指代词,依据最近优先原则,将目标语句中距离指代词最近的主语或宾语提取出来,并将目标语句中提取出来的主语或宾语作为机器人的对话角色。
在一些实施例中,图2的关联模块205依据成语句子的主语和目标语句中提取出来的主语或宾语,对机器人的成语角色与对话角色进行关联,依据为机器人关联的角色,生成用于回答目标语句的对话语句。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
图3是本申请实施例提供的电子设备3的结构示意图。如图3所示,该实施例的电子设备3包括:处理器301、存储器302以及存储在该存储器302中并且可以在处理器301上运行的计算机程序303。处理器301执行计算机程序303时实现上述各个方法实施例中的步骤。或者,处理器301执行计算机程序303时实现上述各装置实施例中各模块/单元的功能。
示例性地,计算机程序303可以被分割成一个或多个模块/单元,一个或多个模块/单元被存储在存储器302中,并由处理器301执行,以完成本申请。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序303在电子设备3中的执行过程。
电子设备3可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备3可以包括但不仅限于处理器301和存储器302。本领域技术人员可以理解,图3仅仅是电子设备3的示例,并不构成对电子设备3的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如,电子设备还可以包括输入输出设备、网络接入设备、总线等。
处理器301可以是中央处理单元(Central Processing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器302可以是电子设备3的内部存储单元,例如,电子设备3的硬盘或内存。存储器302也可以是电子设备3的外部存储设备,例如,电子设备3上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器302还可以既包括电子设备3的内部存储单元也包括外部存储设备。存储器302用于存储计算机程序以及电子设备所需的其它程序和数据。存储器302还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/计算机设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/计算机设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如,在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (8)
1.一种基于成语理解的语音对话方法,其特征在于,包括:
获取包含对话内容的原始文本,对所述原始文本进行成语检测,得到成语及所述成语的成语解释;
对所述成语中的每个字进行扩展,得到若干个候选句子,将所述成语解释与每个所述候选句子进行相似度匹配,依据相似度匹配结果确定所述成语对应的成语句子;
对所述成语句子进行分析,得到所述成语句子的主语,将所述成语句子的主语作为机器人对应的成语角色;
将所述原始文本中包含成语的语句作为目标语句,将所述目标语句中的主语或宾语作为所述机器人的对话角色;
将所述机器人的成语角色与对话角色进行关联,依据角色关联结果生成对话信息;
其中,所述对所述成语中的每个字进行扩展,得到若干个候选句子,包括:
对所述成语进行切字,利用字典或辞典查找每个字对应的释义以及所述释义对应的组词,对所述组词进行排列组合,得到多个候选句子;
所述将所述成语解释与每个所述候选句子进行相似度匹配,依据相似度匹配结果确定所述成语对应的成语句子,包括:
利用预设的句子匹配工具,分别计算所述成语解释与每个所述候选句子之间的相似度,得到每个所述候选句子的相似度评分,将所述相似度评分最高的候选句子作为所述成语的成语句子。
2.根据权利要求1所述的方法,其特征在于,所述获取包含对话内容的原始文本,对所述原始文本进行成语检测,得到成语及所述成语的成语解释,包括:
获取用户与所述机器人的多轮对话,将所述多轮对话的内容作为所述原始文本;
对所述原始文本进行句子分割,得到所述原始文本对应的语句;
利用预设的成语词典对所述语句执行查找操作,得到所述语句中的成语及所述成语对应的成语解释。
3.根据权利要求1所述的方法,其特征在于,所述对所述成语句子进行分析,得到所述成语句子的主语,将所述成语句子的主语作为机器人对应的成语角色,包括:
利用依存句法分析方法或者语义角色标注方法,对所述成语句子中的词语之间的关联关系进行分析,得到所述成语句子的主谓宾结构,将所述成语句子的主语作为机器人对应的成语角色。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述目标语句中的指代词,依据最近优先原则,将所述目标语句中距离所述指代词最近的主语或宾语提取出来,并将所述目标语句中提取出来的主语或宾语作为所述机器人的对话角色。
5.根据权利要求4所述的方法,其特征在于,所述将所述机器人的成语角色与对话角色进行关联,依据角色关联结果生成对话信息,包括:
依据所述成语句子的主语和所述目标语句中提取出来的主语或宾语,对所述机器人的成语角色与对话角色进行关联,依据为所述机器人关联的角色,生成用于回答所述目标语句的对话语句。
6.一种基于成语理解的语音对话装置,其特征在于,包括:
检测模块,被配置为获取包含对话内容的原始文本,对所述原始文本进行成语检测,得到成语及所述成语的成语解释;
扩展模块,被配置为对所述成语中的每个字进行扩展,得到若干个候选句子,将所述成语解释与每个所述候选句子进行相似度匹配,依据相似度匹配结果确定所述成语对应的成语句子;
分析模块,被配置为对所述成语句子进行分析,得到所述成语句子的主语,将所述成语句子的主语作为机器人对应的成语角色;
确定模块,被配置为将所述原始文本中包含成语的语句作为目标语句,将所述目标语句中的主语或宾语作为所述机器人的对话角色;
关联模块,被配置为将所述机器人的成语角色与对话角色进行关联,依据角色关联结果生成对话信息;
其中,所述扩展模块用于对所述成语进行切字,利用字典或辞典查找每个字对应的释义以及所述释义对应的组词,对所述组词进行排列组合,得到多个候选句子;
所述扩展模块用于利用预设的句子匹配工具,分别计算所述成语解释与每个所述候选句子之间的相似度,得到每个所述候选句子的相似度评分,将所述相似度评分最高的候选句子作为所述成语的成语句子。
7.一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至5中任一项所述的方法。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211560755.8A CN115577090B (zh) | 2022-12-07 | 2022-12-07 | 基于成语理解的语音对话方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211560755.8A CN115577090B (zh) | 2022-12-07 | 2022-12-07 | 基于成语理解的语音对话方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115577090A CN115577090A (zh) | 2023-01-06 |
CN115577090B true CN115577090B (zh) | 2023-03-21 |
Family
ID=84590483
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211560755.8A Active CN115577090B (zh) | 2022-12-07 | 2022-12-07 | 基于成语理解的语音对话方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115577090B (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200395008A1 (en) * | 2019-06-15 | 2020-12-17 | Very Important Puppets Inc. | Personality-Based Conversational Agents and Pragmatic Model, and Related Interfaces and Commercial Models |
CN111368554B (zh) * | 2020-03-13 | 2023-07-28 | 深圳追一科技有限公司 | 语句处理方法、装置、计算机设备和存储介质 |
CN113792542A (zh) * | 2021-10-12 | 2021-12-14 | 南京新一代人工智能研究院有限公司 | 一种融合句法分析和语义角色剪枝的意图理解方法 |
CN115240684A (zh) * | 2022-06-30 | 2022-10-25 | 青牛智胜(深圳)科技有限公司 | 一种双人对话语音信息的角色识别方法及系统 |
-
2022
- 2022-12-07 CN CN202211560755.8A patent/CN115577090B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115577090A (zh) | 2023-01-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9805718B2 (en) | Clarifying natural language input using targeted questions | |
KR20220027198A (ko) | 자연어 이해(nlu) 프레임워크에서 검색 키들 및 검색 공간들의 확장을 위한 아티팩트들의 피닝 | |
KR20220028038A (ko) | 자연어 이해 프레임워크에서 발화에 대한 복수의 의미 표현들의 도출 | |
WO2010046782A2 (en) | Hybrid machine translation | |
JP2020030408A (ja) | オーディオにおける重要語句を認識するための方法、装置、機器及び媒体 | |
JP2000112938A5 (zh) | ||
CN104573099A (zh) | 题目的搜索方法及装置 | |
CN112347241A (zh) | 一种摘要提取方法、装置、设备及存储介质 | |
US10740570B2 (en) | Contextual analogy representation | |
US20220365956A1 (en) | Method and apparatus for generating patent summary information, and electronic device and medium | |
WO2023045186A1 (zh) | 意图识别方法、装置、电子设备和存储介质 | |
CN113157887B (zh) | 知识问答意图识别方法、装置、及计算机设备 | |
CN108268443B (zh) | 确定话题点转移以及获取回复文本的方法、装置 | |
WO2023169301A1 (zh) | 一种文本处理方法、装置及电子设备 | |
CN113761919A (zh) | 一种口语化短文本的实体属性提取方法及电子装置 | |
CN115577090B (zh) | 基于成语理解的语音对话方法、装置、设备及存储介质 | |
Green et al. | NP subject detection in verb-initial Arabic clauses | |
CN111401069A (zh) | 会话文本的意图识别方法、意图识别装置及终端 | |
CN115238711A (zh) | 数据处理方法、装置、设备、程序产品及存储介质 | |
CN109783820B (zh) | 一种语义解析方法及系统 | |
US10325025B2 (en) | Contextual analogy representation | |
CN112183114A (zh) | 模型训练、语义完整性识别方法和装置 | |
CN111027308A (zh) | 文本生成方法、系统、移动终端及存储介质 | |
CN111046143A (zh) | 一种ChatBot系统中用户日语会话意图识别方法 | |
JP4033093B2 (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |