CN112581954B - 一种高匹配性语音交互方法和智能设备 - Google Patents

一种高匹配性语音交互方法和智能设备 Download PDF

Info

Publication number
CN112581954B
CN112581954B CN202011377799.8A CN202011377799A CN112581954B CN 112581954 B CN112581954 B CN 112581954B CN 202011377799 A CN202011377799 A CN 202011377799A CN 112581954 B CN112581954 B CN 112581954B
Authority
CN
China
Prior art keywords
text
user
library
voice
speaking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011377799.8A
Other languages
English (en)
Other versions
CN112581954A (zh
Inventor
朱泽春
熊宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Joyoung Household Electrical Appliances Co Ltd
Original Assignee
Hangzhou Joyoung Household Electrical Appliances Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Joyoung Household Electrical Appliances Co Ltd filed Critical Hangzhou Joyoung Household Electrical Appliances Co Ltd
Priority to CN202011377799.8A priority Critical patent/CN112581954B/zh
Publication of CN112581954A publication Critical patent/CN112581954A/zh
Application granted granted Critical
Publication of CN112581954B publication Critical patent/CN112581954B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本公开提供了一种高匹配性语音交互方法和智能设备,该交互方法包括以下步骤:获取用户话术文本,并识别用户话术文本对应的用户意图;在未识别出用户意图时,确定用户话术文本与各个删减话术文本的语义相似率,删减话术文本为对预设话术文本库中的各个模板话术文本进行槽位删减后的话术文本;确定语义相似率最高的删减话术文本,作为目标删减话术文本;若目标删减话术文本所对应的语义相似率大于第一预设阈值,则输出询问信息,询问信息用于向用户询问目标删减话术文本对应的删减槽位的填充内容;获取用户对删减槽位的填充内容,并根据用户话术文本和填充内容,确定用户意图。本公开丰富了智能设备的回复内容,使得智能设备能够快速识别出用户意图。

Description

一种高匹配性语音交互方法和智能设备
技术领域
本公开属于人工智能领域,具体提供了一种高匹配性语音交互方法和智能设备。
背景技术
随着人工智能的发展,越来越多的智能设备能够与用户进行交互。例如,用户以语音的方式向智能设备发出指令,智能设备接收到了用户的语音信息并且识别出了用户的意图之后,会执行相应的指令。如果智能设备没有识别出用户的意图,会输出默认回复(例如,没有找到相应的动作指令,请您换个询问方式,等),告知用户无法执行作业。
由于现有的智能设备在没有识别出用户的意图时,仅能够输出默认的回复,回复比较单一,智能化程度较弱,需要用户多次尝试才能够命中智能设备可以识别的指令。
发明内容
为了解决现有技术中的上述问题,即为了解决现有智能设备在没有识别出用户的意图时回复结果比较单一,智能化程度较弱的问题,本公开提供了一种高匹配性语音交互方法,包括以下步骤:
获取用户语音转换成的用户话术文本,并识别前述用户话术文本对应的用户意图;
在未识别出用户意图时,确定前述用户话术文本与各个删减话术文本的语义相似率,前述删减话术文本为对预设话术文本库中的各个模板话术文本进行槽位删减后的话术文本;
确定语义相似率最高的删减话术文本,作为目标删减话术文本;
若前述目标删减话术文本所对应的语义相似率大于第一预设阈值,则输出询问信息,前述询问信息用于向用户询问前述目标删减话术文本对应的删减槽位的填充内容;
获取用户对前述删减槽位的填充内容,并根据前述用户话术文本和前述填充内容,确定用户意图。
可选地,前述交互方法还包括:
若前述目标删减话术文本所对应的语义相似率不大于前述第一预设阈值,则从前述预设话术文本库中的模板话术文本中确定与前述用户话术文本语义相似率最高的模板话术文本,作为目标模板话术文本;
根据前述预设话术文本库,确定前述目标模板话术文本对应的意图,前述预设话术文本库包括每一个前述模板话术文本对应的意图;
根据预设引导回复文本库,确定前述意图对应的引导回复文本,前述引导回复文本裤包括意图以及与前述意图对应的引导回复文本;
输出前述引导回复文本,以引导用户输入标准话术文本。
可选地,前述预设话术文本库包括用户自定义的引导回复文本和/或其他用户自定义的引导回复文本。
可选地,前述预设话术文本库包括仅对前述用户开放的私有话术文本库和对所有用户开放的公有话术文本库,前述交互方法还包括:
获取用户向前述私有话术文本库补充的话术文本,作为补充话术文本;
若前述私有话术文本库中不存在前述补充话术文本,则将前述补充话术文本添加至前述私有话术文本库中。
可选地,前述交互方法还包括:
确定前述补充话术文本与公有话术文本库中各个话术文本的语义相似率;
若前述公有话术文本库中不存在语义相似率高于第二预设阈值的话术文本,则将前述补充话术文本推荐给其他用户,以供其他用户选择是否将其加入到其对应的私有话术文本库中。
可选地,前述交互方法还包括:
如果添加该补充话术文本的用户的占比达到预设比例时,将该补充话术文本添加至前述公有话术文本库中。
可选地,前述预设引导回复文本库包括用户自定义的引导回复和/或其他用户自定义的引导回复。
可选地,在根据前述预设话术文本库,确定前述目标模板话术文本对应的意图之后,前述交互方法还包括:
如果没有确定出与前述意图对应的引导回复文本,则输出默认回复文本。
可选地,前述交互方法还包括:
从前述用户话术文本中找到表示情感的词语,以确定当前用户的情感状态;
确定与前述情感状态相对应的情感信息,以在输出前述询问信息的同时输出前述情感信息。
此外,本公开还提供了一种智能设备,该智能设备包括处理器、存储器和存储在前述存储器上的执行指令,前述执行指令设置成在被前述处理器执行时能够使前述智能设备执行前文任一项所述的交互方法。
基于前文的描述,本领域技术人员能够理解的是,在本公开前述的技术方案中,在没有识别出用户话术文本对应的用户意图时,通过确定该用户话术文本与各个删减话术文本的语义相似率,从而确定语义相似率最高的一个删减话术文本,以在该目标删减话术文本所对应的语义相似率大于第一预设阈值时,输出询问信息,使用户能够根据该询问信息补充对删减槽位的填充内容,从而根据用户补充的填充内容和原始的用户话术文本确定用户意图。因此,本公开的交互方法在没有识别出用户话术文本对应的用户意图时,能够通过向用户发出针对性的询问信息,与用户进行交互,来确定用户意图。与现有技术相比,不仅丰富了智能设备的回复内容,而且还使得智能设备能够引导用户补充信息,从而能够快速识别出用户意图,更加智能化。
进一步,在语义相似率最高的删减话术文本不符合要求时,通过从预设话术文本库中的模板话术文本中确定出与用户话术文本语义相似率最高的模板话术文本,来作为目标模板话术文本,从而确定该目标模板话术文本对应的意图,进而确定该意图对应的引导回复文本,以便根据该引导回复文本引导用户输入标准话术文本。因此,本公开的交互方法还能够引导用户输入标准话术文本,与现有技术相比,避免了用户反复输入才能够命中相应指令的情形,提升了用户的使用体验。
进一步,通过获取用户向私有话术文本库补充的话术文本,使得不同的用户可以根据各自的习惯制定自己的私有话术文本库,使得智能设备更加迎合用户的使用需要。
更进一步,在添加同一补充话术文本的用户的数量占比达到预设比例时,通过将该补充话术文本添加至公有话术文本库中,不仅提升了用户的使用体验,而且还节约了研发成本。换句话说,通过采集部分用户对某一补充话术文本的需求,能够判断出所有用户对该补充话术文本的需求,进而节约了市场调研的成本。
附图说明
下面参照附图来描述本公开的部分实施例,附图中:
图1是本公开第一实施例中交互方法的流程示意图;
图2是本公开第二实施例中交互方法的流程示意图;
图3是本公开第三实施例中交互方法的流程示意图;
图4是本公开第四实施例中交互方法的流程示意图;
图5是本公开第五实施例中智能设备的结构示意图。
具体实施方式
本领域技术人员应当理解的是,下文所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,该一部分实施例旨在用于解释本公开的技术原理,并非用于限制本公开的保护范围。基于本公开提供的实施例,本领域普通技术人员在没有付出创造性劳动的情况下所获得的其它所有实施例,仍应落入到本公开的保护范围之内。
需要说明的是,在本公开的描述中,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本公开的第一实施例中:
本实施例提供了一种高匹配性语音交互方法,该交互方法可以应用于任意可行的智能设备或服务器。该智能设备可以是智能家电、手机、平板电脑、电脑等,该智能家电可以是空调、烹饪设备、洗衣机等。该服务器可以是后台服务器或云端服务器。该智能设备或服务器通过接收用户的数据和向用户输出数据来与用户进行交互,并且该智能设备可以以文字或语音的方式接收或输出数据。
如图1所示,本实施例的交互方法包括:
步骤S110,获取用户语音转换成的用户话术文本,并识别前述用户话术文本对应的用户意图。
具体地,可以通过下述方式来获取用户话术文本:
获取用户的语音数据,将该语音数据转换成文本信息,并因此获取了用户话术文本。
进一步,识别用户话术文本对应的用户意图,具体为,先将用户话术文本进行语义分析,然后根据分析结果确定用户的意图。进一步具体地,先将用户话术文本进行分词处理,然后根据分词之间的逻辑关系,确定用户意图。
示例性地,假设用户话术文本为“我要吃蛋炒饭”,将该用户话术文本分词之后为“我”、“要”、“吃”、“蛋”、“炒饭”,提取分词中的关键词“蛋”和“炒饭”。如果智能设备为烹饪设备(例如自动炒菜机),则烹饪设备根据“蛋”和“炒饭”之间的逻辑关系,确定用户意图为想要烹饪设备做蛋炒饭。
在本实施例中,用户意图表示用户想要让智能设备或者服务器执行某一指令的意思表示。
步骤S120,在未识别出用户意图时,确定前述用户话术文本与各个删减话术文本的语义相似率。
其中,前述删减话术文本为对预设话术文本库中的各个模板话术文本进行槽位删减后的话术文本。该模板话术文本为预先存储到预设话术文本库内的话术文本,并能够用来与用户话术文本进行比对,从而能够根据比对结果来确定用户的意图。其中,预设话术文本库还可以包括用户自定义的引导回复文本和/或其他用户自定义的引导回复文本。
进一步,前述的删减话术文本,可以是预先存储到预设话术文本库内的话术文本;也可以是在未识别出用户意图时,再对模板话术文本进行槽位删减,从而确定的话术文本。
语义相似率计算方法如下:
先对前述用户话术文本进行分词处理,并获得前述用户话术文本的词表DINPUT=I1,...,Ii,...,In,其中n表示DINPUT中词的个数,1<i<n。
前述删减话术文本列表为,WCAND=C1,...,Cj,...,Cm,其中m表示WCAND中词的个数,1<j<m。
将I1,...,Ii,...,In以及C1,...,Cj,...,Cm混合到一起,并去除重复的词,从而得到词典D1,...,Dl,...,Dk,其中k表示词典中词的个数,1<l<k。
按照D1,...,Dl,...,Dk中词典序,分别计算D1,...,Dl,...,Dk在I1,...,Ii,...,In以及C1,...,Cj,...,Cm中对应位置词的词频,并因此组成DINPUT和WCAND两个词列表的词频向量,即和/>
最后计算和/>这两个向量的余弦值,即为用户话术文本与各个删减话术文本的语义相似率,计算公式为:
后文将结合具体的话术文本对前述的语义相似率计算方法进行举例说明。
步骤S130,确定语义相似率最高的删减话术文本,作为目标删减话术文本。
具体地,将所有的相似率进行比较,以从中确定出语义相似率最高的删减话术文本,然后再将确定出的删减话术文本记作目标删减话术文本。
步骤S140,若前述目标删减话术文本所对应的语义相似率大于第一预设阈值,则输出询问信息。
其中,前述询问信息用于向用户询问前述目标删减话术文本对应的删减槽位的填充内容,以使用户根据该询问信息,向智能设备输入与删减槽位相对应的填充内容。
具体地,步骤S140进一步包括:
步骤S141,将前述目标删减话术文本所对应的语义相似率与第一预设阈值进行比较;
其中,该第一预设阈值可以是任意可行的数值,例如,0.8、0.9、0.96、0.95等。需要说明的是,第一预设阈越大,表示目标删减话术文本对应的意图与用户意图越接近;反之,则越小。
步骤S142,如果前述目标删减话术文本所对应的语义相似率大于第一预设阈值,则输出询问信息。以供用户输入与删减槽位相对应的填充内容。
步骤S150,获取用户对前述删减槽位的填充内容,并根据前述用户话术文本和前述填充内容,确定用户意图。
具体地,先获取用户对前述删减槽位的填充内容,然后将获取的填充内容填充到相应的删减槽位中,直至将所有的删减槽位填充完成并还原了一个模板话术文本为止。该被还原的模板话术文本即为用户意图。
在本实施例的优选实施方式中,每次输出的询问信息只对应一个删减槽位,并且为该删减槽位对应的所有填充内容的集合。当一个删减槽位被填充完之后,再输出另外一个删减槽位对应的询问信息。
则步骤S140优选地为,若前述目标删减话术文本所对应的语义相似率大于第一预设阈值,则依次输出多个删减槽位对应的询问信息。
步骤S150优选地为,依次获取多个用户对该删减槽位的填充内容,并将该多个填充内容依次填充到相应的删减槽位,以将前述目标删减话术文本还原成模板话术文本,从而确定用户意图。然后,智能设备可以根据用户意图执行相应的操作,例如向用户推荐相应的食谱。
基于前文的描述,本领域技术人员能够理解的是,本实施例在没有识别出用户话术文本对应的用户意图时,通过确定该用户话术文本与各个删减话术文本的语义相似率,从而确定语义相似率最高的一个删减话术文本,以在该目标删减话术文本所对应的语义相似率大于第一预设阈值时,输出询问信息,使用户能够根据该询问信息补充对删减槽位的填充内容,从而根据用户补充的填充内容和原始的用户话术文本确定用户意图。因此,本实施例的交互方法在没有识别出用户话术文本对应的用户意图时,能够通过向用户发出询问信息,与用户进行交互,来确定用户意图。与现有技术相比,不仅丰富了智能设备的回复内容,而且还使得智能设备能够引导用户补充信息,从而能够快速识别出用户意图,更加智能化。
本实施例的一个具体场景如下:
智能设备是烹饪设备,其存储的预设话术文本库如下:
用户输入语音,烹饪设备将该语音转换成用户话术文本A“我想吃土豆”。该用户话术文本A没有命中意图文本中的任何一个文本,即,烹饪设备没有命中用户意图。烹饪设备继续执行下列步骤:
将每一个模板话术文本分别继续删减槽位。其中,模板话术文本B“我想吃@口味的@食材”删除槽位得到:删减话术文本B1“我想吃@食材”,删减话术文本B2“我想吃@口味的”。模板话术文本C“推荐个@工艺的@食材”删除槽位得到:删减话术文本C1“推荐个@食材”,删减话术文本C2“推荐个@工艺的”。
其中,前面具有“@”的词,表示槽位词,如“@口味的”、“@食材”、“@工艺的”等。每一个词还可以分别对应一个词典,例如,食材对应有一个词典,该词典包括:土豆、番茄、鸡蛋等;口味对应有一个词典,该词典包括:甜、酸、酸甜、麻辣等。
计算用户话术文本A与各个删减话术文本的相似率,下面以用户话术文本A和删减话术文本B1进行举例说明。
先将用户话术文本A“我想吃土豆”分词为:“我”、“想”、“吃”、“我想吃”、“土豆”;将删减话术文本B1“我想吃@食材”分词为,“我”、“想”、“吃”、“我想吃”、“@食材”。然后,将获得的所有分词进行混合去重,得到词典:“我”、“想”、“吃”、“我想吃”、“土豆”/“@食材”。由于土豆属于食材的一种,所以,这里将“土豆”和“@食材”记作等同的分词,则该词典中一共有5个分词。
计算该词典中的分词在用户话术文本A的分词结果中出现的词频,如果出现了,则记作1,否则记作0。然后将所有的结果组合成向量(1,1,1,1,1)。同样地,计算该词典中的分词在删减话术文本B1的分词结果中出现的词频,如果出现了,则记作1,否则记作0。然后将所有的结果组合成向量(1,1,1,1,1)。
将前述两个向量代入前述公式(1)中,然后计算出相似率为1。其在四个相似率数值中最大,并且大于第一预设阈值0.85。则使烹饪设备向用户询问删减话术文本B1中删减槽位的补充内容,例如:你想吃甜味的、酸甜味的、辣味的,还是麻辣味的。
在本公开的第二实施例中:
如图2所示,与第一实施例相比,本实施例的交互方法在步骤S130之后,还包括:
步骤S210,若前述目标删减话术文本所对应的语义相似率不大于前述第一预设阈值,则从前述预设话术文本库中的模板话术文本中确定与前述用户话术文本语义相似率最高的模板话术文本,作为目标模板话术文本。
具体地,如果前述目标删减话术文本所对应的语义相似率不大于前述第一预设阈值,则将用户话术文本与每一个模板话术文本分别计算语义相似率。该语义相似率的具体计算方法与步骤S120相同。然后,将计算出来的所有相似率进行比较,以从中确定出语义相似率最高的模板话术文本,然后再将确定出的模板话术文本记作目标模板话术文本。
步骤S220,根据前述预设话术文本库,确定前述目标模板话术文本对应的意图。
其中,前述预设话术文本库包括每一个前述模板话术文本对应的意图。该意图为,希望用户输入预设话术文本库中存在的话术文本。
因此,在确定了目标模板话术文本之后,就可以从预设话术文本库中找到与目标模板话术文本相对应的意图。
步骤S230,根据预设引导回复文本库,确定前述意图对应的引导回复文本。
其中,前述引导回复文本库包括意图以及与该意图对应的引导回复文本。该引导回复文本包括预设话术文本库中的模板话术文本或者删减话术文本,引导回复文本库可以与华硕文本库合二为一。
步骤S240,输出前述引导回复文本,以引导用户输入标准话术文本。
其中,标准话术文本可以包括预设话术文本库中的模板话术文本或者删减话术文本。
本实施例的一个具体场景如下:
本场景与第一实施例中具体场景不同的是,用户话术文本A为“我想吃七分熟的牛排”。
与第一实施例中具体场景相同地,烹饪设备没有命中用户意图。
进一步,将用户话术文本A“我想吃七分熟的牛排”分词为:“我”、“想”、“吃”、“我想吃”、“七分”、“熟”、“七分熟”、“牛排”,并与删减话术文本B1的所有分词进行混合去重,得到词典:“我”、“想”、“吃”、“我想吃”、“七分”、“熟”、“七分熟”、“牛排”/“@食材”。该词典中一共有8个分词。
该词典与用户话术文本A相对应的词频向量为(1,1,1,1,1,1,1,1),与删减话术文本B1相对应的词频向量为(1,1,1,1,0,0,0,1)。
将前述两个向量代入前述公式(1)中,然后计算出相似率为0.79。假定0.79在四个相似率数值中最大,并且小于第一预设阈值0.85。则找到与用户话术文本A相似率最高的模板话术文本,即,“我要吃@口味的@食材”。然后输出与该模板话术文本相对应的引导回复文本:你可以这样说“我要吃某某口味的某某食材”。
其中,用户话术文本A与模板话术文本之间的相似率的计算方法,与用户话术文本A与删减话术文本B1之间的相似率的计算方法相同。
基于前文的描述,本领域技术人员能够理解的是,本实施例在语义相似率最高的删减话术文本不符合要求时,通过从预设话术文本库中的模板话术文本中确定出与用户话术文本语义相似率最高的模板话术文本,来作为目标模板话术文本,从而确定该目标模板话术文本对应的意图,进而确定该意图对应的引导回复文本,以便根据该引导回复文本引导用户输入标准话术文本。因此,本公开的交互方法还能够引导用户输入标准话术文本,与现有技术相比,避免了用户反复输入才能够命中相应指令的情形,提升了用户的使用体验。
进一步,本实施例在步骤S210之后,还包括可选地步骤:如果没有确定出与前述意图相对应的引导回复文本,则输出默认回复文本。该默认回复文本可以是“我没有听明白,请重新输入”、“我没有这个功能”等任意可行的文本。
在本公开的第三实施例中:
与前述第一实施例和/或第二实施例不同的是,本实施例的交互方法还允许用户在预设话术文本库中补充话术文本。
其中,用户补充的话术文本可以作为模板话术文本,也可以作为引导回复文本。
本实施例的预设话术文本库包括仅对所述用户开放的私有话术文本库和对所有用户开放的公有话术文本库。该私有话术文本库仅包括当前用户制定的话术文本,公有话术文本库包括其他用户制定的话术文本和服务商制定的话术文本。进一步,无论是私有话术文本库,还是公有话术文本库,都可以包括模板话术文本和删减话术文本。前述的对应关系和接收到话术文本被存储到私有话术文本库中。
具体地,本实施例的交互方法还包括:
步骤S310,获取用户向私有话术文本库补充的话术文本,作为补充话术文本。
具体地,在接收到了用户需要补充话术文本的指令之后,获取用户根据自己语言习惯制定的话术文本,以作为补充话术文本。
步骤S320,若前述私有话术文本库中不存在前述补充话术文本,则将前述补充话术文本添加至前述私有话术文本库中。
具体地,在接收到了补充话术文本之后,先将接收到的补充话术文本与私有话术文本库中的每一个话术文本进行匹配。如果没有匹配到,再将前述补充话术文本添加至私有话术文本库中。
与步骤S320相并列地,如果匹配到了话术文本,则不再将前述补充话术文本添加至私有话术文本库中。
在本实施例中,将接收到的补充话术文本与私有话术文本库中的每一个话术文本进行匹配,可以是,计算补充话术文本与私有话术文本库中的每一个话术文本的语义相似率,并且判断计算得到的语义相似率是否达到了阈值(例如0.8、0.9、0.96等)。只有在计算得到的语义相似率达到了阈值,才判定补充话术文本在私有话术文本库中匹配到了话术文本。
步骤S330,确定前述补充话术文本与公有话术文本库中各个话术文本的语义相似率。
步骤S340,若前述公有话术文本库中不存在语义相似率高于第二预设阈值的话术文本,则将前述补充话术文本推荐给其他用户,以供其他用户选择是否将其加入到其对应的私有话术文本库中。
其中,该第二预设阈值可以是任意可行的数值,例如,0.8、0.9、0.96、0.95等。需要说明的是,第二预设阈越大,表示当前用户的用语习惯与其他用户(或者公众)的用语习惯越接近,越容易被其他用户接受;反之,则越小。
步骤S350,如果添加该补充话术文本的用户的占比达到预设比例时,将该补充话术文本添加至前述公有话术文本库中。
换句话说,在添加同一补充话术文本的用户的数量达到所有用户数量的预设比例时,将该补充话术文本添加至前述公有话术文本库中。
其中,预设比例可以是任意可行的数值,例如1/2、3/4、0.67、87%等。
基于前文的描述,本领域技术人员能够理解的是,本实施例获取用户向私有话术文本库补充的话术文本,使得不同的用户可以根据各自的习惯制定自己的私有话术文本库,迎合了不同用户的使用需要。进一步,在添加同一补充话术文本的用户的数量占比达到预设比例时,通过将该补充话术文本添加至公有话术文本库中,不仅提升了用户的使用体验,而且还节约了研发成本。换句话说,通过采集部分用户对某一补充话术文本的需求,能够判断出所有用户对该补充话术文本的需求,进而节约了市场调研的成本。
在本公开的第四实施例中:
与前述第一实施例、第二实施例和/或第四实施例相比,本实施例的交互方法还包括:
步骤S410,从前述用户话术文本中找到表示情感的词语,以确定当前用户的情感状态。
例如,从用户话术文本中找到了“甜”这个词语,则可以判定用户当前比较高兴。
步骤S420,确定与前述情感状态相对应的情感信息,以在输出前述询问信息的同时输出前述情感信息。
具体地,从情感文本库中找到与该情感状态相对应的情感信息,然后在输出前述询问信息的同时输出该情感信息。
如果询问信息以文字的形式输出,则情感信息可以是文字、颜色等;如果询问信息以语音的形式输出,则情感信息可以文字、该语音的音调、该语音的语速等。
基于前文的描述,本领域技术人员能够理解的是,本实施例通过识别用户话术文本,来获取用户当前的情感状态,进而能够根据用户当前的情感状态,调整询问信息,使得智能设备更加具有情感,回复信息不再机械化。
在本公开的第五实施例中:
如图5所示,本公开还提供了一种智能设备。该智能设备在硬件层面上包括处理器,可选地还包括存储器和总线,此外该智能设备还允许包括其它业务所需要的硬件。
其中,存储器用于存放执行指令,该执行指令具体是能够被执行的计算机程序。进一步,存储器可以包括内存和非易失性存储器(non-volatile memory),并向处理器提供执行指令和数据。示例性地,内存可以是高速随机存取存储器(Random-Access Memory,RAM),非易失性存储器可以是至少1个磁盘存储器。
其中,总线用于将处理器、存储器和网络接口相互连接到一起。该总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线、EISA(ExtendedIndustryStandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为了便于表示,图5中仅用一个双向箭头表示,但这并不表示仅有一根总线或一种类型的总线。
在上述智能设备的一种可行的实施方式中,处理器可以先从非易失性存储器中读取对应的执行指令到内存中再运行,也可以先从其它设备上获取相应的执行指令再运行。处理器在执行存储器所存放的执行指令时,能够实现本公开上述任意一个交互方法实施例中的交互方法。
本领域技术人员能够理解的是,上述的交互方法可以应用于处理器中,也可以借助处理器来实现。示例性地,处理器是一种集成电路芯片,具有处理信号的能力。在处理器执行上述交互方法的过程中,上述交互方法的各步骤可以通过处理器中硬件形式的集成逻辑电路或软件形式的指令完成。进一步,上述处理器可以是通用处理器,例如中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件、微处理器以及其它任何常规的处理器。
本领域技术人员还能够理解的是,本公开上述交互方法实施例的步骤可以被硬件译码处理器执行完成,也可以被译码处理器中的硬件和软件模块组合执行完成。其中,软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等其它本领域成熟的存储介质中。该存储介质位于存储器中,处理器读取存储器中的信息之后结合其硬件完成上述交互方法实施例中步骤的执行。
至此,已经结合前文的多个实施例描述了本公开的技术方案,但是,本领域技术人员容易理解的是,本公开的保护范围并不仅限于这些具体实施例。在不偏离本公开技术原理的前提下,本领域技术人员可以对上述各个实施例中的技术方案进行拆分和组合,也可以对相关技术特征作出等同的更改或替换,凡在本公开的技术构思和/或技术原理之内所做的任何更改、等同替换、改进等都将落入本公开的保护范围之内。

Claims (10)

1.一种高匹配性语音交互方法,其特征在于,包括以下步骤:
获取用户语音转换成的用户话术文本,并识别所述用户话术文本对应的用户意图;
在未识别出用户意图时,确定所述用户话术文本与各个删减话术文本的语义相似率,所述删减话术文本为对预设话术文本库中的各个模板话术文本进行槽位删减后的话术文本,其中,对预设话术文本库中的各个模板话术文本进行槽位删减包括:在未识别出用户意图时,对模板话术文本进行槽位删减,从而确定所述删减话术文本;
确定语义相似率最高的删减话术文本,作为目标删减话术文本;
若所述目标删减话术文本所对应的语义相似率大于第一预设阈值,则输出询问信息,所述询问信息用于向用户询问所述目标删减话术文本对应的删减槽位的填充内容;
获取用户对所述删减槽位的填充内容,并根据所述用户话术文本和所述填充内容,确定用户意图。
2.根据权利要求1所述的交互方法,其特征在于,所述交互方法还包括:
若所述目标删减话术文本所对应的语义相似率不大于所述第一预设阈值,则从所述预设话术文本库中的模板话术文本中确定与所述用户话术文本语义相似率最高的模板话术文本,作为目标模板话术文本;
根据所述预设话术文本库,确定所述目标模板话术文本对应的意图,所述预设话术文本库包括每一个所述模板话术文本对应的意图;
根据预设引导回复文本库,确定所述意图对应的引导回复文本,所述引导回复文本库包括意图以及与所述意图对应的引导回复文本;
输出所述引导回复文本,以引导用户输入标准话术文本。
3.根据权利要求1所述的方法,其特征在于,所述预设话术文本库包括用户自定义的引导回复文本和/或其他用户自定义的引导回复文本。
4.根据权利要求1所述的方法,其特征在于,所述预设话术文本库包括仅对所述用户开放的私有话术文本库和对所有用户开放的公有话术文本库,所述交互方法还包括:
获取用户向所述私有话术文本库补充的话术文本,作为补充话术文本;
若所述私有话术文本库中不存在所述补充话术文本,则将所述补充话术文本添加至所述私有话术文本库中。
5.根据权利要求4所述的方法,其特征在于,所述交互方法还包括:
确定所述补充话术文本与公有话术文本库中各个话术文本的语义相似率;
若所述公有话术文本库中不存在语义相似率高于第二预设阈值的话术文本,则将所述补充话术文本推荐给其他用户,以供其他用户选择是否将其加入到其对应的私有话术文本库中。
6.根据权利要求5所述的方法,其特征在于,所述交互方法还包括:
如果添加该补充话术文本的用户的占比达到预设比例时,将该补充话术文本添加至所述公有话术文本库中。
7.根据权利要求2所述的方法,其特征在于,所述预设引导回复文本库包括用户自定义的引导回复和/或其他用户自定义的引导回复。
8.根据权利要求2所述的方法,其特征在于,在根据所述预设话术文本库,确定所述目标模板话术文本对应的意图之后,所述交互方法还包括:
如果没有确定出与所述意图对应的引导回复文本,则输出默认回复文本。
9.根据权利要求1所述的交互方法,其特征在于,所述交互方法还包括:
从所述用户话术文本中找到表示情感的词语,以确定当前用户的情感状态;
确定与所述情感状态相对应的情感信息,以在输出所述询问信息的同时输出所述情感信息。
10.一种智能设备,其特征在于,所述智能设备包括处理器、存储器和存储在所述存储器上的执行指令,所述执行指令设置成在被所述处理器执行时能够使所述智能设备执行权利要求1至9中任一项所述的交互方法。
CN202011377799.8A 2020-12-01 2020-12-01 一种高匹配性语音交互方法和智能设备 Active CN112581954B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011377799.8A CN112581954B (zh) 2020-12-01 2020-12-01 一种高匹配性语音交互方法和智能设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011377799.8A CN112581954B (zh) 2020-12-01 2020-12-01 一种高匹配性语音交互方法和智能设备

Publications (2)

Publication Number Publication Date
CN112581954A CN112581954A (zh) 2021-03-30
CN112581954B true CN112581954B (zh) 2023-08-04

Family

ID=75126836

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011377799.8A Active CN112581954B (zh) 2020-12-01 2020-12-01 一种高匹配性语音交互方法和智能设备

Country Status (1)

Country Link
CN (1) CN112581954B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113270103A (zh) * 2021-05-27 2021-08-17 平安普惠企业管理有限公司 基于语义增强的智能语音对话方法、装置、设备及介质

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810998A (zh) * 2013-12-05 2014-05-21 中国农业大学 基于移动终端设备的离线语音识别方法以及实现方法
KR20160130578A (ko) * 2015-05-04 2016-11-14 김정훈 언어 특성을 고려한 언어 학습 장치 및 시스템
CN107423363A (zh) * 2017-06-22 2017-12-01 百度在线网络技术(北京)有限公司 基于人工智能的话术生成方法、装置、设备及存储介质
CN107436916A (zh) * 2017-06-15 2017-12-05 百度在线网络技术(北京)有限公司 智能提示答案的方法及装置
CN107885089A (zh) * 2017-11-06 2018-04-06 四川长虹电器股份有限公司 基于自定义语音指令库的智慧家居语音操控方法
CN108920497A (zh) * 2018-05-23 2018-11-30 北京奇艺世纪科技有限公司 一种人机交互方法及装置
CN109213777A (zh) * 2017-06-29 2019-01-15 杭州九阳小家电有限公司 一种基于语音的食谱处理方法及系统
CN109671436A (zh) * 2018-12-07 2019-04-23 陈包容 智能语音识别通讯录联系人人名的方法
CN109739961A (zh) * 2018-12-24 2019-05-10 科大讯飞股份有限公司 一种人机语言交互方法及装置
US10388272B1 (en) * 2018-12-04 2019-08-20 Sorenson Ip Holdings, Llc Training speech recognition systems using word sequences
CN110674259A (zh) * 2019-09-27 2020-01-10 北京百度网讯科技有限公司 意图理解方法和装置
CN110765244A (zh) * 2019-09-18 2020-02-07 平安科技(深圳)有限公司 获取应答话术的方法、装置、计算机设备及存储介质
CN110866100A (zh) * 2019-11-07 2020-03-06 北京声智科技有限公司 一种话术泛化方法、装置及电子设备
CN111160017A (zh) * 2019-12-12 2020-05-15 北京文思海辉金信软件有限公司 关键词抽取方法、话术评分方法以及话术推荐方法
CN111309862A (zh) * 2020-02-10 2020-06-19 贝壳技术有限公司 具有情感的用户交互方法和装置、存储介质、设备
CN111414764A (zh) * 2020-03-18 2020-07-14 苏州思必驰信息科技有限公司 对话文本的技能领域确定方法及系统
CN111563148A (zh) * 2020-04-17 2020-08-21 华南理工大学 一种基于词组多样性的对话生成方法
CN111813900A (zh) * 2019-04-10 2020-10-23 北京猎户星空科技有限公司 多轮对话处理方法、装置、电子设备及存储介质
CN111986673A (zh) * 2020-07-24 2020-11-24 北京奇保信安科技有限公司 一种用于语音识别的槽值填充方法、装置和电子设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7739286B2 (en) * 2005-03-17 2010-06-15 University Of Southern California Topic specific language models built from large numbers of documents
US9772994B2 (en) * 2013-07-25 2017-09-26 Intel Corporation Self-learning statistical natural language processing for automatic production of virtual personal assistants
US10262062B2 (en) * 2015-12-21 2019-04-16 Adobe Inc. Natural language system question classifier, semantic representations, and logical form templates
US10055403B2 (en) * 2016-02-05 2018-08-21 Adobe Systems Incorporated Rule-based dialog state tracking
CN108880961A (zh) * 2018-07-19 2018-11-23 广东美的厨房电器制造有限公司 家电设备控制方法及装置、计算机设备和存储介质

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810998A (zh) * 2013-12-05 2014-05-21 中国农业大学 基于移动终端设备的离线语音识别方法以及实现方法
KR20160130578A (ko) * 2015-05-04 2016-11-14 김정훈 언어 특성을 고려한 언어 학습 장치 및 시스템
CN107436916A (zh) * 2017-06-15 2017-12-05 百度在线网络技术(北京)有限公司 智能提示答案的方法及装置
CN107423363A (zh) * 2017-06-22 2017-12-01 百度在线网络技术(北京)有限公司 基于人工智能的话术生成方法、装置、设备及存储介质
CN109213777A (zh) * 2017-06-29 2019-01-15 杭州九阳小家电有限公司 一种基于语音的食谱处理方法及系统
CN107885089A (zh) * 2017-11-06 2018-04-06 四川长虹电器股份有限公司 基于自定义语音指令库的智慧家居语音操控方法
CN108920497A (zh) * 2018-05-23 2018-11-30 北京奇艺世纪科技有限公司 一种人机交互方法及装置
US10388272B1 (en) * 2018-12-04 2019-08-20 Sorenson Ip Holdings, Llc Training speech recognition systems using word sequences
CN109671436A (zh) * 2018-12-07 2019-04-23 陈包容 智能语音识别通讯录联系人人名的方法
CN109739961A (zh) * 2018-12-24 2019-05-10 科大讯飞股份有限公司 一种人机语言交互方法及装置
CN111813900A (zh) * 2019-04-10 2020-10-23 北京猎户星空科技有限公司 多轮对话处理方法、装置、电子设备及存储介质
CN110765244A (zh) * 2019-09-18 2020-02-07 平安科技(深圳)有限公司 获取应答话术的方法、装置、计算机设备及存储介质
CN110674259A (zh) * 2019-09-27 2020-01-10 北京百度网讯科技有限公司 意图理解方法和装置
CN110866100A (zh) * 2019-11-07 2020-03-06 北京声智科技有限公司 一种话术泛化方法、装置及电子设备
CN111160017A (zh) * 2019-12-12 2020-05-15 北京文思海辉金信软件有限公司 关键词抽取方法、话术评分方法以及话术推荐方法
CN111309862A (zh) * 2020-02-10 2020-06-19 贝壳技术有限公司 具有情感的用户交互方法和装置、存储介质、设备
CN111414764A (zh) * 2020-03-18 2020-07-14 苏州思必驰信息科技有限公司 对话文本的技能领域确定方法及系统
CN111563148A (zh) * 2020-04-17 2020-08-21 华南理工大学 一种基于词组多样性的对话生成方法
CN111986673A (zh) * 2020-07-24 2020-11-24 北京奇保信安科技有限公司 一种用于语音识别的槽值填充方法、装置和电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于上下文信息的口语意图检测方法;徐扬;王建成;刘启元;李寿山;;计算机科学(第01期);正文 *

Also Published As

Publication number Publication date
CN112581954A (zh) 2021-03-30

Similar Documents

Publication Publication Date Title
CN107797984B (zh) 智能交互方法、设备及存储介质
US20140207811A1 (en) Electronic device for determining emotion of user and method for determining emotion of user
CN109410913B (zh) 一种语音合成方法、装置、设备及存储介质
CN111767713B (zh) 关键词的提取方法、装置、电子设备及存储介质
CN108256044B (zh) 直播间推荐方法、装置及电子设备
CN109545185B (zh) 交互系统评价方法、评价系统、服务器及计算机可读介质
WO2022052817A1 (zh) 搜索处理方法、装置、终端及存储介质
CN109710753B (zh) 基于个性化主题的快捷信息生成方法、装置和电子设备
CN110096701A (zh) 消息转换处理方法、装置、存储介质及电子设备
US20190378513A1 (en) Identifying an accurate transcription from probabilistic inputs
CN111737473B (zh) 文本分类方法、装置及设备
CN110956016A (zh) 一种文档内容格式的调整方法、装置及电子设备
CN115292543A (zh) 基于语音互动小说的数据处理方法及相关产品
CN112581954B (zh) 一种高匹配性语音交互方法和智能设备
CN113254777A (zh) 信息推荐方法、装置、电子设备及存储介质
CN113412481B (zh) 资源推送方法、装置、服务器以及存储介质
CN112532507A (zh) 用于呈现表情图像、用于发送表情图像的方法和设备
CN111400516B (zh) 标签确定方法、电子设备及存储介质
CN111737408A (zh) 基于剧本的对话方法、设备及电子设备
CN110189752A (zh) 一种多意图的识别方法及装置、终端设备
CN106910093A (zh) 餐厅推荐的方法及装置
CN107656627B (zh) 信息输入方法和装置
CN110580285B (zh) 一种产品标签确定方法及装置,电子设备
KR102464156B1 (ko) 사용자의 상태 및 상담원의 상태에 기초하여 사용자와 상담원을 매칭하는 콜센터 서비스 제공 장치, 방법 및 프로그램
EP4254400A1 (en) Method and device for determining user intent

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant