CN115376504A - 智能产品的语音交互方法、装置及可读存储介质 - Google Patents

智能产品的语音交互方法、装置及可读存储介质 Download PDF

Info

Publication number
CN115376504A
CN115376504A CN202110547962.9A CN202110547962A CN115376504A CN 115376504 A CN115376504 A CN 115376504A CN 202110547962 A CN202110547962 A CN 202110547962A CN 115376504 A CN115376504 A CN 115376504A
Authority
CN
China
Prior art keywords
subgraph
query
candidate
sentence
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110547962.9A
Other languages
English (en)
Inventor
代文
刘惠文
刘岩
吕荣荣
陈帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Mobile Software Co Ltd
Beijing Xiaomi Pinecone Electronic Co Ltd
Original Assignee
Beijing Xiaomi Mobile Software Co Ltd
Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Mobile Software Co Ltd, Beijing Xiaomi Pinecone Electronic Co Ltd filed Critical Beijing Xiaomi Mobile Software Co Ltd
Priority to CN202110547962.9A priority Critical patent/CN115376504A/zh
Publication of CN115376504A publication Critical patent/CN115376504A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种智能产品的语音交互方法、装置及可读存储介质。交互方法包括:通过采集模组采集语音信息;在确定语音信息为问询语句时,获取问询语句中的所有预设对象文本;根据所有预设对象文本和预设的路径模板,确定问询语句对应的所有子图;根据所有子图和预设的语义匹配模型,确定候选子图;根据候选子图确定问询语句的问答结果;通过播放模组输出问答结果的语音。如此,摆脱了通过实体链接获取核心实体的约束,避免实体链接的错误向下游任务传递,提升问答的准确率。并且,获取的是问询语句对应的所有预设对象文本,后续便可基于该所有预设对象文本挖掘到更多模式的子图,大大提升了问答的能力以及问答的准确率。

Description

智能产品的语音交互方法、装置及可读存储介质
技术领域
本公开涉及人工智能领域,尤其涉及一种智能产品的语音交互方法、装置及可读存储介质。
背景技术
智能产品的智能问答技术是自然语言处理(Natural Language Process, NLP)领域的常见技术,它集合了NLP领域的诸多子任务。通过智能问答,能够快速精准地解答用户的问题,为用户带来优越的体验和极大的便利。
基于知识图谱的问答是智能问答的一种问答形式。基于知识图谱的问答,旨在从知识图谱中找到正确的答案,用来回答用户的问题。基于知识图谱的问答,需要将人类的语言解析为可用于知识图谱查询的格式,以实现从庞大的知识图谱中找到正确答案,精准回答用户问题的目的。比如,当用户问“姚明的老婆是谁”的时候,需要把它解析为可查询的语句“select DISTINCT?x where{<姚明><妻子>?x}”(这里以SPARQL查询语言和数据获取协议为例),如此才可以从知识图谱中查询得到答案。
为了提升知识图谱问答的效果,在将自然语言转换为可用于知识图谱查询的格式的过程当中,需要解决几个关键的技术难题。假设需要对用户的问题query进行解析,得到结构化的查询语句。首先在实体层面,需要通过实体链接提取到query中的核心实体(例如,对句子语义表达最为重要的实体)。在实际应用中,用户的问题query较为复杂,通常包括多个核心实体,或者需要多步推理才能解决,使得对query的解析变得更加复杂,从而导致问答的准确性较低。此外,在提取到核心实体之后,通常会面临query中实体属性的描述方式多种多样的难题。比如<妻子>这个属性,它的描述方式还有“老婆”、“结婚对象”、“和…步入婚姻殿堂”等,如何将这些变化多样的描述方式对应到同一个实体属性上,也是一个困难的技术问题,也会影响问答的准确性。
发明内容
为克服相关技术中存在的问题,本公开提供一种智能产品的语音交互方法、装置及可读存储介质。
根据本公开实施例的第一方面,提供一种智能产品的语音交互方法,包括:
通过采集模组采集语音信息;
在确定所述语音信息为问询语句时,获取所述问询语句中的所有预设对象文本;
根据所述所有预设对象文本和预设的路径模板,确定所述问询语句对应的所有子图;
根据所述所有子图和预设的语义匹配模型,确定候选子图;
根据所述候选子图确定所述问询语句的问答结果;
通过播放模组输出所述问答结果的语音。
可选地,所述根据所述所有子图和预设的语义匹配模型,确定候选子图,包括:
针对每一所述子图,对所述子图进行预处理,得到所述子图对应的子图语句,并将所述子图语句与所述问询语句组成句对;
将所述句对输入所述语义匹配模型,以得到所述语义匹配模型输出的所述句对的第一匹配度,其中,所述语义匹配模型是通过将样本句对作为模型输入参数,将所述样本句对各自的第一样本匹配度作为模型输出参数进行训练的得到;
将所述第一匹配度最高的K个句对对应的子图确定为候选子图,其中, K大于1且小于或等于所有子图的数量。
可选地,所述根据所述候选子图确定所述问询语句的问答结果,包括:
根据所述候选子图和预设的重排序模型,确定目标子图;
根据所述目标子图确定所述问询语句的问答结果。
可选地,所述根据所述候选子图和预设的重排序模型,确定目标子图,包括:
获取每一所述候选子图的相关特征数据;
针对每一所述候选子图,将所述候选子图的相关特征数据输入所述重排序模型,以得到所述重排序模型输出的所述候选子图与所述问询语句的第二匹配度,其中,所述重排序模型是通过将样本子图作为模型输入参数,将所述样本子图各自的第二样本匹配度作为模型输出参数进行训练的得到;
将所述第二匹配度最高的候选子图确定为目标子图。
可选地,所述相关特征数据包括以下中的至少一者:所述候选子图所在句对的第一匹配度,所述候选子图与所述问询语句的第三匹配度、用于表征候选子图中是否存在所述问询语句的指定字符的第一特征数据、用于表征所述问询语句的疑问词的答案类型和所述候选子图的答案类型是否一致的第二特征数据。
可选地,所述第三匹配度通过以下方式确定:
分别确定所述候选子图中实体的实体提及词与所述问询语句的最长匹配字符的第一字符长度、属性与所述问询语句的最长匹配字符的第二字符长度和属性值与所述问询语句的最长匹配字符的第三字符长度,并对所述第一字符长度、所述第二字符长度和所述第三字符长度进行求和以得到第四字符长度L;
将所述候选子图中实体的实体提及词、属性和属性值的字符长度求和,以得到第五字符长度M;
将所述第四字符长度L与所述第五字符长度M的比值,确定为所述候选子图与所述问询语句的第三匹配度。
可选地,所述在确定所述语音信息为问询语句时,获取所述问询语句中的所有预设对象文本,包括:
在确定所述语音信息为问询语句时,将位于知识图谱对应的提及词集合内的所述问询语句的提及词确定为目标提及词;
针对每一所述目标提及词,若所述目标提及词为实体提及词,则查询预设的映射关系表得到所述目标提及词的所有预设对象文本,若所述目标提及词为字符串属性提及词,则将所述目标提及词确定为对象文本,其中,所述映射关系表用于表征实体提及词与对象文本之间的对应关系。
可选地,所述知识图谱对应的提及词集合通过以下方式确定:
获取知识图谱中所有的实体和字符串属性值;
从所述实体中获取实体提及词,以及从所述字符串属性值中获取字符串属性提及词;
利用所述实体提及词和所述字符串属性提及词,构建所述知识图谱对应的提及词集合。
根据本公开实施例的第二方面,提供一种智能产品的语音交互装置,包括:
采集模块,被配置为通过采集模组采集语音信息;
获取模块,被配置为在确定所述语音信息为问询语句时,获取所述问询语句中的所有预设对象文本;
第一确定模块,被配置为根据所述所有预设对象文本和预设的路径模板,确定所述问询语句对应的所有子图;
第二确定模块,被配置为根据所述所有子图和预设的语义匹配模型,确定候选子图;
第三确定模块,被配置为根据所述候选子图确定所述问询语句的问答结果;
输出模块,被配置为通过播放模组输出所述问答结果的语音。
根据本公开实施例的第三方面,提供一种智能产品的语音交互装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
通过采集模组采集语音信息;
在确定所述语音信息为问询语句时,获取所述问询语句中的所有预设对象文本;
根据所述所有预设对象文本和预设的路径模板,确定所述问询语句对应的所有子图;
根据所述所有子图和预设的语义匹配模型,确定候选子图;
根据所述候选子图确定所述问询语句的问答结果;
通过播放模组输出所述问答结果的语音。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开第一方面所提供的智能产品的语音交互方法的步骤。
本公开的实施例提供的技术方案可以包括以下有益效果:
采用上述技术方案,通过采集模组采集语音信息,并在确定该语音信息为问询语句时,获取该问询语句中所有预设对象文本,并基于该所有预设对象文本和预设的路径模板,确定问询语句对应的所有子图,进而基于该所有子图和预设的语义匹配模块确定候选子图,并根据该候选子图确定问询语句的问答结果,最终通过播放模组输出该问答结果的语音。如此,摆脱了通过实体链接获取核心实体的约束,避免实体链接的错误向下游任务传递,提升问答的准确率。并且,获取的是问询语句中的所有预设对象文本,后续便可基于该所有预设对象文本挖掘到更多模式的子图,大大提升了问答的能力以及问答的准确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种智能产品的语音交互方法的流程图。
图2是根据一示例性实施例示出的一种确定知识图谱对应的提及词集合方法的流程图。
图3是根据一示例性实施例示出的一种获取问询语句中的所有预设对象文本的流程图。
图4是根据一示例性实施例示出的一种确定候选子图的流程图。
图5是根据一示例性实施例示出的一种智能产品的语音交互装置的框图。
图6是根据一示例性实施例示出的另一种智能产品的语音交互装置的框图。
图7是根据一示例性实施例示出的另一种智能产品的语音交互装置的框图。
具体实施方式
在相关技术中,通常通过以下两种方式进行基于知识图谱的问答。第一种方式为:基于检索的方式。在该方式中,首先通过实体链接技术从query 中提取核心实体。然后从核心实体出发,在知识图谱中找到所有子图。然后,通过排序模型对子图进行排序,选取最有可能的子图作为query的结构化查询语句,从而查询知识图谱获取答案。例如,query为“刘德华的老婆是谁”,通过实体链接,提取到query的核心实体是<刘德华_中国香港著名艺人>。然后,通过查询知识图谱,获取实体<刘德华_中国香港著名艺人>关联到的子图,这个实体有<妻子>、<身高>和<出生年月>等属性,那么子图就包括<刘德华_香港著名艺人>-<妻子>-<Answer>,<刘德华_中国香港著名艺人>-<身高>-<Answer> 和<刘德华_中国香港著名艺人>-<出身年月>-<Answer>等。最后,将这些子图与 query进行匹配并根据匹配程度进行排序,匹配主要是指计算子图对应的路径与query之间的语义相似度,常用的方法是将子图和query进行向量化的表示,然后计算向量之间的距离。对于一条路径,如果它与query之间的距离越近,那么它的排序越靠前。经过排序之后排名第一的子图对应的路径作为正确路径,最终基于该正确路径来获取答案,以回答用户的问题。但是,在该方式中,问答的准确度完全依赖于实体链接的准确性。如果核心实体提取错误,这个错误将会向下游传递,导致最终查询的答案也发生错误。此外,基于检索的方式所能回答的query相对比较简单,一般只能回答一个核心实体的一跳或者两跳问题。对于复杂query的解析能力比较欠缺。
第二种方式为:基于模板的语义解析方式。在该方式中,旨在通过预先定义好的模板提取query中的核心实体和实体属性。模板的表示方法没有统一的标准,以下面这个模板为例:${person}的老婆是谁=>select DISTINCT?x where{${person}<妻子>?x},该模板表示的是一种语义解析规则,模板中“=>”左边表示的就是模板,记为模板P,“=>”右边表示的是结构化查询语句,记为查询语句S。在这个模板中,${person}表示的是类别为人物的实体。其中,在知识图谱中,每个实体都有一个属性<类别>,如果一个实体的 <类别>属性取值为人物,那么这个实体就属于${person}表示的范围。这个解析规则表示的含义是,如果一个query匹配上了模板P,那么将查询语句S 中的${person}替换为真实实体后,就可以得到query的解析结果。使用这个查询语句S,就可以在知识图谱中获取答案。但是,基于模板的语义解析方法,召回比较有限,泛化能力比较差,对长尾query的召回能力比较弱。并且,模板的丰富程度限制着问答系统的召回能力,而模板的收集又需要耗费大量的时间人力,用户输入的query千变万化,模板的数量远远赶不上query 的变化,所以基于模板的语义解析方法,召回率一般不太客观。另外,基于模板的语义解析方式主要解决的是头部query,如果用户输入的query稍微变化一点,模板就无法覆盖。对于长尾query,形式变化多样,模板的泛化性能又比较差,很难对长尾query提供解析能力。这些都大大限制了基于模板的语义解析方式的适用性和准确性。
鉴于此,本公开提供一种智能产品的语音交互方法、装置及可读存储介质,以提高问答的准确性。
下面将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种智能产品的语音交互方法的流程图。如图1所示,该语音交互方法可以包括以下步骤。
在步骤11中,通过采集模组采集语音信息。
值得说明的是,本公开所提供的语音交互方法可以应用于智能产品,也可以应用于服务器,本公开对此不作具体限定。当该语音交互方法可以应用于智能产品时,该智能产品中设置有采集模组用于采集语音信息,该采集模组可以例如为语音采集装置。此外,该语音信息可以是用户输入的,也可以是其他电子设备输入的,本公开对此也不作具体限定。
在步骤S12中,在确定语音信息为问询语句时,获取问询语句中的所有预设对象文本。
值得说明的是,在本公开中,可以通过检测语音信息的语义来确定语音信息是否为问询语句。本公开对此不作具体限定。
其中,所获取的所有预设对象文本可以包括实体文本和/或字符串属性值文本。值得说明的是,在本公开中,获取的是问询语句中的所有预设对象文本,而相关技术中,根据实体链接获取的仅是问询语句中的核心实体。如此,本公开一方面可以摆脱了实体链接的限制,另一方面可以得到更多的信息,便于后续基于该所有预设对象文本挖掘到更多模式的子图,大大提升了问答的能力。其中,获取所有预设对象文本的具体方式将会在下文详细描述。
在步骤S13中,根据所有预设对象文本和预设的路径模板,确定问询语句对应的所有子图。
在本公开中,可以依据经验预先设置多个路径模板,该路径模板可以包括一个对象文本对应的路径模板和多个对象文本对应的路径模板。例如,当在步骤S12中获取的所有预设对象文本为一个时,可以利用预设的每一个一个对象文本对应的路径模板确定该问询语句对应的所有子图,以得到所有子图。当步骤S12中获取的所有预设对象文本为N个时,可以利用预设的每一个i个对象文本对应的路径模板确定该问询语句对应的所有子图。其中,N 大于2,且i的取值范围为[1,N]。
在本公开中,预设的路径模板包括了一个对象文本对应的路径模板和多个对象文本对应的路径模板,如此,可以召回更多的候选路径的情形,扩展了问答的能力边界,尤其提升了复杂问询语句的问答能力。
在步骤14,根据所有子图和预设的语义匹配模型,确定候选子图。
在步骤15中,根据候选子图确定问询语句的问答结果。
在本公开中,可以通过机器学习的模式从所有子图中得到候选子图,之后,从候选子图中进一步确定出问询语句的问答结果。示例地,在本公开中,可以从预设的知识图谱中确定问询语句的问答结果。
在步骤16中,通过播放模组输出问答结果的语音。
采用上述技术方案,通过采集模组采集语音信息,并在确定该语音信息为问询语句时,获取该问询语句中所有预设对象文本,并基于该所有预设对象文本和预设的路径模板,确定问询语句对应的所有子图,进而基于该所有子图和预设的语义匹配模块确定候选子图,并根据该候选子图确定问询语句的问答结果,最终通过播放模组输出该问答结果的语音。如此,摆脱了通过实体链接获取核心实体的约束,避免实体链接的错误向下游任务传递,提升问答的准确率。并且,获取的是问询语句中的所有预设对象文本,后续便可基于该所有预设对象文本挖掘到更多模式的子图,大大提升了问答的能力以及问答的准确率。
为了使本领域技术人员更好的理解本公开所提供的智能产品的语音交互方法,下面以一个完整的实施例进行描述。
在详细描述获取问询语句中的所有预设对象文本之前,首先对知识图谱对应的提及词集合的构建方法进行说明。
图2是根据一示例性实施例示出的一种确定知识图谱对应的提及词集合方法的流程图。如图2所示,确定知识图谱对应的提及词集合方法可以包括步骤S21至步骤S23。
在步骤S21中,获取知识图谱中所有的实体和字符串属性值。
在步骤S22中,从实体中获取实体提及词,以及从字符串属性值中获取字符串属性提及词。
在步骤S23中,利用实体提及词和字符串属性提及词,构建知识图谱对应的提及词集合。
在本公开中,从知识图谱SPO三元组数据中,收集所有的实体和字符串属性值,构造知识图谱对应的提及词集合S。示例地,对于实体,将该实体的提及词加入到提及词集合S中,对于字符串属性值,则不做任何改变直接加入提及词集合S中。其中,实体提及词为表征实体的名称。字符串属性提及词为表征实体的一个属性的属性值字符串。
例如,三元组数据为<姚明_前上海男篮投资人>-<身高>-“226cm”,则实体为<姚明_前上海男篮投资人>,该实体的实体提及词即为“姚明”,因此,将实体提及词“姚明”加入提及词集合S中,字符串属性值为“226cm”,该字符串属性值的字符串属性提及词即为“226cm”,因此,将字符串属性提及词“226”加入提及词集合S中。如此,针对每一三元组数据,均可以按照上述方式获取到实体提及词和字符串属性提及词,进而可以构造出提及词集合S。
值得说明的是,对于实体提及词,还可以构建该实体提及词到实体的映射关系表D。沿用上述例子,实体为<姚明_前上海男篮投资人>,实体提及词为“姚明”,该实体提及词到实体的映射关系为“姚明”:<姚明_前上海男篮投资人>。如此,针对每一实体提及词,均可构建该实体提及词到实体的映射关系。
下面对获取问询语句中的所有预设对象文本进行说明。
如图3所示,图1中步骤S12在确定语音信息为问询语句时,获取问询语句中的所有预设对象文本可以进一步包括步骤S121和步骤S122。
在步骤S121中,在确定语音信息为问询语句时,将位于知识图谱对应的提及词集合内的问询语句的提及词确定为目标提及词。
在按照上述方式确定出知识图谱对应的提及词集合S之后,将位于该提及词集合S内的问询语句的提及词确定为目标提及词。
假设问询语句为“姚明的队友当中,谁的身高是189cm”,通过与提及词集合S进行匹配,发现问询语句中的实体提及词“姚明”和字符串属性提及词“189cm”位于该提及词集合S中,则将实体提及词“姚明”和字符串属性提及词“189cm”确定为目标提及词。
在步骤S122中,针对每一目标提及词,若目标提及词为实体提及词,则查询预设的映射关系表得到目标提及词的所有预设对象文本,若目标提及词为字符串属性提及词,则将目标提及词确定为对象文本,其中,映射关系表用于表征实体提及词与实体之间的对应关系。
沿用上述例子,所确定的目标提及词为“姚明”和“189cm”,则针对目标提及词“姚明”,则查询预设的映射关系表S得到该目标提及词“姚明”的所有预设对象文本。假设映射关系表S中存在两条映射关系“姚明”:< 姚明_前上海男篮投资人>、“姚明”:<姚明_姚明集团董事长>,则该目标提及词“姚明”的所有预设对象文本即为<姚明_前上海男篮投资人>和<姚明_ 姚明集团董事长>。针对目标提及词“189cm”,由于该目标提及词为字符串属性提及词,不存在映射关系,则可直接将该目标提及词确定为对象文本。如此,所确定出的该问询语句对应的所有预设对象文本包括:<姚明_前上海男篮投资人>、<姚明_姚明集团董事长>和“189cm”。
在确定出问询语句中的所有预设对象文本之后,根据所有预设对象文本和预设的路径模板,确定问询语句对应的所有子图。
示例地,假设预设的路径模板包括一个对象文本对应的路径模板、两个对象文本对应的路径模板和三个对象文本对应的路径模板。
表1为预设的路径模板。
Figure BDA0003074332930000111
Figure BDA0003074332930000121
其中,在表1中,从一个对象文本出发的路径模板为一个对象文本对应的路径模板,从两个对象文本出发的路径模板为两个对象文本对应的路径模板,从三个对象文本出发的了路径模板为三个对象文本对应的路径模板。值得说明的是,表1中仅示出了一个对象文本对应的路径模板、两个对象文本对应的路径模板和三个对象文本对应的路径模板,根据实际需求,还可以设置四个对象文本、五个对象文本或者更多个对象文本对应的路径模板,本公开对此不作具体限定。
示例地,对于步骤12中获取的所有预设对象文本中每一个对象文本,在知识图谱中从该对象文本出发,沿着表1中预先设置的一个对象文本对应的路径模板确定子图。例如,对象文本为<姚明_前上海男篮投资人>,以<姚明__前上海男篮投资人>作为实体Subject,根据预设的一跳路径模板“Subject-Predicate-Answer”,可以确定的子图有<姚明_前上海男篮投资人>-<老婆>-Answer、<姚明_前上海男篮投资人>-<身高>-Answer、<姚明_ 前上海男篮投资人>-<出生地>-Answer等;以<姚明__前上海男篮投资人>作为属性值Object,根据预设的一跳路径模板“Answer-Predicate-Object”,可以确定的子图有Answer-<配偶>-<姚明_前上海男篮投资人>、Answer-<队友>-<姚明_前上海男篮投资人>、Answer-<主席>-<姚明_前上海男篮投资人> 等。其中,如果对象文本为字符串属性值文本,而字符串属性值文本只能作为属性值Object。对于对象文本“189cm”,根据预设的一跳路径模板“Answer-Predicate-Object”,可以确定的子图有Answer-<身高>-“189cm”等。
又例如,对象文本为<姚明_前上海男篮投资人>,以<姚明__前上海男篮投资人>作为实体Subject,根据预设的两跳路径模板“Subject-Predicate-Intermediate-Predicate-Answer”,可以确定的子图有<姚明 _前上海男篮投资人>-<老婆>-Intermediate-<出生地>-Answer等,第一跳查询得到的Intermediate节点作为第二跳的实体Subject;以<姚明__前上海男篮投资人>作为属性值Object,根据预设的两跳路径模板“Intermediate-Predicate-Object-Intermediate-Predicate-Answer”,可以确定的子图有Intermediate-<丈夫>-<姚明_前上海男篮投资人>-Intermediate-<出生地>-Answer等,第一跳查询得到的Intermediate节点作为第二跳的实体 Subject;以<姚明__前上海男篮投资人>作为属性值Object,根据预设的两跳路径模板“Intermediate-Predicate-Object-Answer-Predicate-Intermediate”,可以确定的子图有Intermediate-<丈夫>-<姚明_前上海男篮投资人>-Answer-< 校友>-Intermediate等,第一跳查询得到的Intermediate节点作为第二跳的属性值Object。其中,对于对象文本“189cm”,根据预设的两跳路径模板“Intermediate-Predicate-Object-Intermediate-Predicate-Answer”,可以确定的子图有Intermediate-<身高>-“189cm”-Answer-<校友>-Intermediate等,第一跳查询得到的Intermediate节点作为第二跳的属性值Object。
示例地,对于步骤12中获取的所有预设对象文本中的任意两个对象文本,在知识图谱中从这两个对象文本出发,沿着表1中预先设置的两个对象文本对应的路径模板确定子图。例如,对象文本为<刘德华_中国香港著名艺人> 和<张学友_中国香港著名艺人>,以<刘德华_中国香港著名艺人>、<张学友_中国香港著名艺人>作为实体Subjec或属性值Object,根据路径模板“Two-Entity-Path”,可以确定的子图有<刘德华_中国香港著名艺人>-<主演电影>-Answer-<张学友_ 中国香港著名艺人>-<主演电影>-Answer、<刘德华_中国香港著名艺人>-<主演电影>-Answer-<出品人>-<张学友_中国香港著名艺人>等,表示的是两个节点通过一个公共节点连接起来的子图,在第一个子图中两个节点都是实体Subject,在第二个子图中两个节点分别是实体Subject、属性值Object。其中,任意两个对象文本中,一个为实体文本一个为字符串属性值文本,则字符串属性值文本只能作为属性值Object。对于对象文本<刘德华_中国香港著名艺人>和“120 分钟”,“120分钟”只能作为属性值Object。以对象文本<刘德华_中国香港著名艺人>作为实体Subject或者属性值Object,“120分钟”作为属性值Object,根据路径模板“Two-Entity-Path”,可以确定的子图有<刘德华_中国香港著名艺人>-<主演电影>-Answer-<时长>-“120分钟”、Answer-<出品人>-<刘德华_ 中国香港著名艺人>-Answer-<时长>-“120分钟”等。
又例如,对象文本为<刘德华_中国香港著名艺人>和<张学友_中国香港著名艺人>,以<刘德华_中国香港著名艺人>、<张学友_中国香港著名艺人>作为实体Subjec或属性值Object,根据路径模板“Two-Entity-Path-1-hop”,可以确定的子图有< 刘德华_中国香港著名艺人>-<主演电影>-Intermediate-<张学友_中国香港著名艺人>-< 主演电影>-Intermediate-Intermediate-<时长>-Answer、<刘德华_中国香港著名艺人>-<主演电影>-Intermediate-<张学友_中国香港著名艺人>-<主演电影>-Intermediate-Answer-<代表作品>-Intermediate等,表示的是先通过“Two-Entity-Path”得到中间节点,然后以中间节点作为实体Subject或者属性值Object,分别通过一跳得到答案。其中,对于对象文本<刘德华_中国香港著名艺人>和“120分钟”,以对象文本<刘德华_中国香港著名艺人>作为实体Subject 或者属性值Object,“120分钟”作为属性值Object,根据路径模板“Two-Entity-Path-1-hop”,可以确定的子图有Intermediate-<出品人>-<刘德华_中国香港著名艺人>-Intermediate-<时长>-“120分钟”-Intermediate-<导演>-Answer、Intermediate-<出品人>-<刘德华_中国香港著名艺人>-Intermediate-< 时长>-“120分钟”-Answer-<代表作品>-Intermediate等,表示的是先通过“Two-Entity-Path”得到中间节点,然后以中间节点作为实体Subject或者属性值Object,分别通过一跳得到答案。
又示例地,对于步骤12中获取的所有预设对象文本中的任意三个对象文本,在知识图谱中以这三个对象文本出发,沿着表1中预先设置的三个对象文本对应的路径模板确定子图。例如,对象文本为<刘德华_中国香港著名艺人>、 <张学友_中国香港著名艺人>和<郭富城_中国香港著名艺人>,以<刘德华_中国香港著名艺人>、<张学友_中国香港著名艺人>和<郭富城_中国香港著名艺人>作为实体Subject 或者属性值Object,根据路径模板“Three-Entity-Path”,可以确定的子图有< 刘德华_中国香港著名艺人>-<主演电影>-Answer-<张学友_中国香港著名艺人>-<主演电影>-Answer-<张学友_中国香港著名艺人>-<主演电影>-Answer等,表示的是三个节点通过一个公共节点连接起来的子图。其中,若三个对象文本中存在字符串属性值文本,则字符串属性值文本只能作为属性值Object。三个对象文本为<刘德华_中国香港著名艺人>、<张学友_中国香港著名艺人>和“120分钟”。以<刘德华_中国香港著名艺人>、<张学友_中国香港著名艺人>作为实体Subject或者属性值Object,“120分钟”作为属性值Object,根据路径模板“Three-Entity-Path”,可以确定的子图有<刘德华_中国香港著名艺人>-<主演电影>-Answer-<张学友_中国香港著名艺人>-<主演电影>-Answer-Answer-<时长>- “120分钟”等,表示的是三个节点通过一个公共节点连接起来的子图。
又例如,对象文本为<刘德华_中国香港著名艺人>、<张学友_中国香港著名艺人>和<郭富城_中国香港著名艺人>,以<刘德华_中国香港著名艺人>、<张学友_中国香港著名艺人>和<郭富城_中国香港著名艺人>作为实体Subject或者属性值Object,根据路径模板“Three-Entity-Path-1-hop”,可以确定的子图有<刘德华_中国香港著名艺人>-<主演电影>-Intermediate-<张学友_中国香港著名艺人>-<主演电影>-Intermediate-<郭富城_中国香港著名艺人>-<主演电影>-Intermediate-Intermediate-<时长>-Answer等,表示的是先通过“Three-Entity-Path”得到中间节点,然后以中间节点作为实体Subject或者属性值Object,分别通过一跳得到答案。其中,对于对象文本<刘德华_中国香港著名艺人>、<张学友_中国香港著名艺人>和“120分钟”,以<刘德华_中国香港著名艺人>、<张学友_中国香港著名艺人>作为实体Subject或者属性值Object,“120 分钟”作为属性值Object,根据路径模板“Three-Entity-Path-1-hop”,可以确定的子图有<刘德华_中国香港著名艺人>-<主演电影>-Intermediate-<张学友_ 中国香港著名艺人>-<主演电影>-Intermediate-<时长>-“120分钟”-Intermediate-< 出品公司>-Answer等,表示的是先通过“Three-Entity-Path”得到中间节点,然后以中间节点作为实体Subject或者属性值Object,分别通过一跳得到答案。
按照上述方式,根据获取的所有预设对象文本和预设的路径模板,即可确定出该问询语句对应的所有子图。如此,通过基于路径模板的子图挖掘,可以召回更多的候选路径情形,扩展问答的能力边界,尤其提升了复杂问询语句的问答能力。
示例地,图4是根据一示例性实施例示出的一种确定候选子图的流程图。如图4所示,图1中的步骤S14可以包括步骤S141至步骤S143。
在步骤S141中,针对每一子图,对该子图进行预处理,得到该子图对应的子图语句,并将该子图语句与问询语句组成句对。
示例地,可以对子图进行如下处理:去掉子图中Intermediate节点,以指定符号代替Answer节点。值得说明的是,如果不存在Intermediate节点则无需进行去掉子图中Intermediate节点这一操作。此外,代替Answer节点的指定符号不能是问询语句中出现过的符号,也即是,代替Answer节点所用的指定符号只能表征Answer节点这一个含义。例如,问询语句中没有出现过符号“^”,因此,可以利用“^”符合代替Answer节点。
示例地,假设问询语句为“姚明的老婆是什么时候出生的”,其对应的一个子图为<姚明_前上海男篮投资人>-<老婆>-Intermediate-<出生地>-Answer,将Intermediate节点去掉,并将Answer节点以“^”符号代替,得到子图语句为“姚明前上海男篮投资人老婆出身地^”。这样,“姚明的老婆是什么时候出生的”和“姚明前上海男篮投资人老婆出身地^”组成一个句对。
在步骤142中,将句对输入语义匹配模型,以得到语义匹配模型输出的句对的第一匹配度。
其中,语义匹配模型可以通过以下步骤训练得到:
步骤a,准备正样本。准备5000条query,并针对每一条query人工解析出该query对应的正确的子图(以下简称解析子图),并对该解析子图进行如下操作:去掉Intermediate节点,以“^”符号代替Answer节点得到子图语句,之后,将该子图语句与该query语句组成一个句对,该句对记为正样本,并且,人工标注正样本的第一样本匹配度为100%。
步骤b,准备负样本。针对步骤a中的5000条query中的每一条query,参照上述确定问询语句对应的所有子图的方式,确定出该条query对应的所有子图,从所确定的所有子图中去除解析子图。接着,对去除解析子图后的子图进行如下操作:去掉Intermediate节点,以“^”符号代替Answer节点得到子图语句。之后,将该子图语句与该query语句组成一个句对。如此,每一条query均可组成多条句对。5000条query组成的句对中,随机选取 50000条句对作为负样本,且人工标注每个负样本的第一样本匹配度为0。
步骤c,根据步骤a和步骤b收到的正样本和负样本以文本对分类任务训练BERT模型。训练时,设置每个样本的字符总数不超过64(即, max_seq_length=64),每次输出的样本数量为32(即,train_batch_size=32),模型的学习率为2e-5(即,learning_rate=2e-5),训练轮次为2轮(即, num_train_epochs=2)。即,模型训练训练轮次达到2轮次时,结束训练,此时得到的模型即为语义匹配模型。
在训练得到语义匹配模型之后,利用该语义匹配模型从所有子图中确定出候选子图。
示例地,可以将句对输入语义匹配模型,以得到语义匹配模型输出的句对的第一匹配度,其中,第一匹配度用于表征该句对中的子图语句与问询语句的匹配程度。针对每一句对,均可将该句对输入语义匹配模型,得到该句对的第一匹配度。如此,即可得到每一句对的第一匹配度。
在步骤143中,将第一匹配度最高的K个句对对应的子图确定为候选子图,其中,K大于1且小于或等于所有子图的数量。
值得说明的是,假设在步骤13中确定出的所有子图的数量为n,相应地,即可得到n个句对,以及n个句对的第一匹配度,即,得到n个第一匹配,之后,从该n个第一匹配度中确定出第一匹配度最高的K个句对对应的子图,并将所确定出的K个句对对应的子图确定为候选子图。其中,K为大于1 且小于或等于n的整数。
示例地,K为10,在得到每一句对的第一匹配度之后,按照第一匹配度的高低对句对进行排序,将前10个句对对应的10个子图确定为候选子图,之后,根据该候选子图确定问询语句的问答结果。
示例地,可以根据候选子图和预设的重排序模型,确定目标子图,之后,根据该目标子图确定问询语句的问答结果。
在该实施例中,首先根据语义匹配模型确定出候选子图,之后,进一步根据候选子图重排序模型确定出目标子图,相比于直接根据语义匹配模型确定出目标子图的方案,提高了确定目标子图的准确度,进而可以基于该准确的目标子图更为准确地查询出问询语句的问答结果。
其中,根据候选子图和预设的重排序模型,确定目标子图的具体实施方式可以包括步骤(1)至步骤(3):
步骤(1),获取每一候选子图的相关特征数据。其中,该相关特征数据可以包括以下中的至少一者:候选子图所在句对的第一匹配度、候选子图与问询语句的第三匹配度、用于表征候选子图中是否存在问询语句的指定字符的第一特征数据、用于表征问询语句的疑问词的答案类型和候选子图的答案类型是否一致的第二特征数据。
值得说明的是,在确定第二特征数据时,首先需要提取问询语句的疑问词,并根据该疑问词进一步确定该疑问词的答案类型。例如,问询语句中的疑问词为“谁”、“哪位”,则该疑问词的答案类型为人物类型。或者,问询语句中的疑问词为“哪里”、“在哪”,则该疑问词的答案类型为地点类型。或者,问询语句中的疑问词为“何时”、“哪天”,则该疑问词的答案类型为日期类型。又或者,问询语句中的疑问词为“多大”、“多少”,则该疑问词的答案类型为数字类型。接着,确定候选子图的答案类型。示例地,可以按照该候选子图在知识图谱中查询得到该候选子图对应的答案,之后,根据所查询的答案确定答案类型。在按照上述方式确定出问询语句的疑问词的答案类型和候选子图的答案类型之后,确定两者是否一致,如果一直,则第二特征数据为1,否者第二特征数据为0。
在本公开中,第三匹配度可以通过以下方式确定:
首先分别确定候选子图中实体的实体提及词与问询语句的最长匹配字符的第一字符长度、属性与问询语句的最长匹配字符的第二字符长度和属性值与问询语句的最长匹配字符的第三字符长度,并对第一字符长度、第二字符长度和第三字符长度进行求和,以得到第四字符长度L。例如,问询语句为“姚明的老婆是谁”,候选子图为<姚明_前上海男篮投资人>-<妻子>-Answer,则实体Subject为“姚明_前上海男篮投资人”,该实体的实体提及词为“姚明”,属性Predicate为“妻子”。属性值Object为指定符号,则实体提及词与问询语句的最长匹配字符的第一字符长度为2,属性 Predicate与问询语句的最长匹配字符的第二字符长度为0,属性值Object与问询语句的最长匹配字符的第三字符长度为0,则对第一字符长度、第二字符长度和第三字符长度进行求和得到的第四字符长度L即为2。值得说明的是,本公开所提及的字符长度可以是字符数量。
接着,将候选子图中实体的实体提及词、属性和属性值的字符长度求和,以得到第五字符长度M。沿用上述例子,实体提及词为“姚明”,属性 Predicate为“妻子”,则候选子图中实体、属性和属性值的字符长度求和,得到第五字符长度M即为4。
最后,将第四字符长度L与第五字符长度M的比值R确定为候选子图与问询语句的第三匹配度。
此外,第一特征数据可以通过以下方式确定:指定字符为时间或数字字符串。例如,问询语句中存在时间字符串(如“2020年10月”)或数字字符串(如“第21届世界杯”中的“21”),如果问询语句中存在的时间字符串或数字字符串在候选子图中出现,则第一特征数据可以标识为1,否则标识为0。或者,指定字符为特殊符合。例如,问询语句中存在特征符号(如《》、 ()、“”、‘’等),如果问询语句中存在的特征符号在该候选子图中出现过,则该第一特征数据可以为1,否者标识为0。
步骤(2),针对每一候选子图,将候选子图的相关特征数据输入重排序模型,以得到重排序模型输出的候选子图与问询语句的第二匹配度。其中,第二匹配度用于表征候选子图与问询语句的匹配程度。
在本公开中,可以通过以下步骤训练得到重排序模型:
步骤d,准备样本。首先准备100条query,并针对每一条query人工解析出该query对应的正确的子图(以下简称解析子图),并针对每一条query,按照上述方式确定出候选子图集,该候选子图集中包括所确定的多条候选子图。确定解析子图是否位于该候选子图集中,如果不位于,则将该解析子图添加至候选子图集中,使其作为候选子图。之后,将候选子图集中的解析子图作为正样本,以及,将候选子图集中除解析子图之外的其他候选子图作为负样本。并且,正样本对应的候选子图与问询语句的第二样本匹配度为100%,负样本对应的候选子图与问询语句的第二样本匹配度为0。
步骤e,确定每一样本的相关特征数据。其中,可以参照上述获取候选子图的相关特征数据的方式确定每一样本的相关特征数据。此处不再赘述。
步骤f,将每一样本的相关特征数据作为模型输入参数,将该样本对应的候选子图与问询语句的第二样本匹配度作为模型输出参数,对随机森林模型进行训练,训练结束时,得到重排序模型。
如此,利用训练后的重排序模型即可得到每一候选子图与问询语句的第二匹配度。
步骤(3),将第二匹配度最高的候选子图确定为目标子图。
在按照上述任一实施例得到目标子图之后,根据目标子图,确定问询语句的问答结果,示例地,可以根据目标子图从知识图谱中查询问询语句的问答结果。
采用上述技术方案,依次通过语义匹配模型和重排序模型,可以准确得到目标子图,进而基于该准确的目标子图,可以在知识图谱中查询得到更为准确的问答结果,进一步提高了问答的准确性。
图5是根据一示例性实施例示出的一种智能产品的语音交互装置的框图。参照图5,基于智能产品的语音交互装置500可以包括:
采集模块501,被配置为通过采集模组采集语音信息;
获取模块502,被配置为在确定所述语音信息为问询语句时,获取所述问询语句中的所有预设对象文本;
第一确定模块503,被配置为根据所述所有预设对象文本和预设的路径模板,确定所述问询语句对应的所有子图;
第二确定模块504,被配置为根据所述所有子图和预设的语义匹配模型,确定候选子图;
第三确定模块505,被配置为根据所述候选子图确定所述问询语句的问答结果;
输出模块506,被配置为通过播放模组输出所述问答结果的语音。
可选地,所述第二确定模块504可以包括:
预处理子模块,被配置为针对每一所述子图,对所述子图进行预处理,得到所述子图对应的子图语句,并将所述子图语句与所述问询语句组成句对;
第一输入子模块,被配置为将所述句对输入所述语义匹配模型,以得到所述语义匹配模型输出的所述句对的第一匹配度,其中,所述语义匹配模型是通过将样本句对作为模型输入参数,将所述样本句对各自的第一样本匹配度作为模型输出参数进行训练的得到;
第一确定子模块,被配置为将所述第一匹配度最高的K个句对对应的子图确定为候选子图,其中,K大于1且小于或等于所有子图的数量。
可选地,所述第三确定模块505可以包括:
第二确定子模块,被配置为根据所述候选子图和预设的重排序模型,确定目标子图;
第三确定子模块,被配置为根据所述目标子图确定所述问询语句的问答结果。
可选地,所述第二确定子模块可以包括:
获取子模块,被配置为获取每一所述候选子图的相关特征数据;
第一输入子模块,被配置为针对每一所述候选子图,将所述候选子图的相关特征数据输入所述重排序模型,以得到所述重排序模型输出的所述候选子图与所述问询语句的第二匹配度,其中,所述重排序模型是通过将样本子图作为模型输入参数,将所述样本子图各自的第二样本匹配度作为模型输出参数进行训练的得到;
第四确定子模块,被配置为将所述第二匹配度最高的候选子图确定为目标子图。
可选地,所述相关特征数据包括以下中的至少一者:所述候选子图所在句对的第一匹配度,所述候选子图与所述问询语句的第三匹配度、用于表征候选子图中是否存在所述问询语句的指定字符的第一特征数据、用于表征所述问询语句的疑问词的答案类型和所述候选子图的答案类型是否一致的第二特征数据。
可选地,所述第三匹配度通过以下方式确定:
分别确定所述候选子图中实体的实体提及词与所述问询语句的最长匹配字符的第一字符长度、属性与所述问询语句的最长匹配字符的第二字符长度和属性值与所述问询语句的最长匹配字符的第三字符长度,并对所述第一字符长度、第二字符长度和第三字符长度进行求和,以得到第四字符长度L;
将所述候选子图中实体的实体提及词、属性和属性值的字符长度求和,以得到第五字符长度M;
将第四字符长度L与第五字符长度M的比值,确定为所述候选子图与所述问询语句的第三匹配度。
可选地,所述获取模块502可以包括:
第五确定子模块,被配置为在确定所述语音信息为问询语句时,将位于知识图谱对应的提及词集合内的所述问询语句的提及词确定为目标提及词;
第六确定子模块,被配置为针对每一所述目标提及词,若所述目标提及词为实体提及词,则查询预设的映射关系表得到所述目标提及词的所有预设的对象文本,若所述目标提及词为字符串属性提及词,则将所述目标提及词确定为对象文本,其中,所述映射关系表用于表征实体提及词与对象文本之间的对应关系。
可选地,所述知识图谱对应的提及词集合通过以下方式确定:
获取知识图谱中所有的实体和字符串属性值;
从所述实体中获取实体提及词,以及从所述字符串属性值中获取字符串属性提及词;
利用所述实体提及词和所述字符串属性提及词,构建所述知识图谱对应的提及词集合。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开还提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开提供的智能产品的语音交互方法的步骤。
图6是根据一示例性实施例示出的一种智能产品的语音交互装置的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图6,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电力组件806,多媒体组件808,音频组件810,输入/输出(I/O) 的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成基于智能产品的语音交互方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件 802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器 (SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810 包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到装置800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件 814还可以检测装置800或装置800一个组件的位置改变,用户与装置800 接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD 图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814 还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在 NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路 (ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行智能产品的语音交互方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成智能产品的语音交互方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的智能产品的语音交互方法的代码部分。
图7是根据一示例性实施例示出的一种智能产品的语音交互装置1900 的框图。例如,装置1900可以被提供为一服务器。参照图7,装置1900包括处理组件1922,其进一步包括一个或多个处理器,以及由存储器1932所代表的存储器资源,用于存储可由处理组件1922的执行的指令,例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1922被配置为执行指令,以执行智能产品的语音交互方法。
装置1900还可以包括一个电源组件1926被配置为执行装置1900的电源管理,一个有线或无线网络接口1950被配置为将装置1900连接到网络,和一个输入输出(I/O)接口1958。装置1900可以操作基于存储在存储器 1932的操作系统,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM, FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践本公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (11)

1.一种智能产品的语音交互方法,其特征在于,包括:
通过采集模组采集语音信息;
在确定所述语音信息为问询语句时,获取所述问询语句中的所有预设对象文本;
根据所述所有预设对象文本和预设的路径模板,确定所述问询语句对应的所有子图;
根据所述所有子图和预设的语义匹配模型,确定候选子图;
根据所述候选子图确定所述问询语句的问答结果;
通过播放模组输出所述问答结果的语音。
2.根据权利要求1所述的方法,其特征在于,所述根据所述所有子图和预设的语义匹配模型,确定候选子图,包括:
针对每一所述子图,对所述子图进行预处理,得到所述子图对应的子图语句,并将所述子图语句与所述问询语句组成句对;
将所述句对输入所述语义匹配模型,以得到所述语义匹配模型输出的所述句对的第一匹配度,其中,所述语义匹配模型是通过将样本句对作为模型输入参数,将所述样本句对各自的第一样本匹配度作为模型输出参数进行训练的得到;
将所述第一匹配度最高的K个句对对应的子图确定为候选子图,其中,K大于1且小于或等于所有子图的数量。
3.根据权利要求1所述的方法,其特征在于,所述根据所述候选子图确定所述问询语句的问答结果,包括:
根据所述候选子图和预设的重排序模型,确定目标子图;
根据所述目标子图确定所述问询语句的问答结果。
4.根据权利要求3所述的方法,其特征在于,所述根据所述候选子图和预设的重排序模型,确定目标子图,包括:
获取每一所述候选子图的相关特征数据;
针对每一所述候选子图,将所述候选子图的相关特征数据输入所述重排序模型,以得到所述重排序模型输出的所述候选子图与所述问询语句的第二匹配度,其中,所述重排序模型是通过将样本子图作为模型输入参数,将所述样本子图各自的第二样本匹配度作为模型输出参数进行训练的得到;
将所述第二匹配度最高的候选子图确定为目标子图。
5.根据权利要求4所述的方法,其特征在于,所述相关特征数据包括以下中的至少一者:所述候选子图所在句对的第一匹配度,所述候选子图与所述问询语句的第三匹配度、用于表征候选子图中是否存在所述问询语句的指定字符的第一特征数据、用于表征所述问询语句的疑问词的答案类型和所述候选子图的答案类型是否一致的第二特征数据。
6.根据权利要求5所述的方法,其特征在于,所述第三匹配度通过以下方式确定:
分别确定所述候选子图中实体的实体提及词与所述问询语句的最长匹配字符的第一字符长度、属性与所述问询语句的最长匹配字符的第二字符长度和属性值与所述问询语句的最长匹配字符的第三字符长度,并对所述第一字符长度、所述第二字符长度和所述第三字符长度进行求和以得到第四字符长度L;
将所述候选子图中实体的实体提及词、属性和属性值的字符长度求和,以得到第五字符长度M;
将所述第四字符长度L与所述第五字符长度M的比值,确定为所述候选子图与所述问询语句的第三匹配度。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述在确定所述语音信息为问询语句时,获取所述问询语句中的所有预设对象文本,包括:
在确定所述语音信息为问询语句时,将位于知识图谱对应的提及词集合内的所述问询语句的提及词确定为目标提及词;
针对每一所述目标提及词,若所述目标提及词为实体提及词,则查询预设的映射关系表得到所述目标提及词的所有预设对象文本,若所述目标提及词为字符串属性提及词,则将所述目标提及词确定为对象文本,其中,所述映射关系表用于表征实体提及词与对象文本之间的对应关系。
8.根据权利要求7所述的方法,其特征在于,所述知识图谱对应的提及词集合通过以下方式确定:
获取知识图谱中所有的实体和字符串属性值;
从所述实体中获取实体提及词,以及从所述字符串属性值中获取字符串属性提及词;
利用所述实体提及词和所述字符串属性提及词,构建所述知识图谱对应的提及词集合。
9.一种智能产品的语音交互装置,其特征在于,包括:
采集模块,被配置为通过采集模组采集语音信息;
获取模块,被配置为在确定所述语音信息为问询语句时,获取所述问询语句中的所有预设对象文本;
第一确定模块,被配置为根据所述所有预设对象文本和预设的路径模板,确定所述问询语句对应的所有子图;
第二确定模块,被配置为根据所述所有子图和预设的语义匹配模型,确定候选子图;
第三确定模块,被配置为根据所述候选子图确定所述问询语句的问答结果;
输出模块,被配置为通过播放模组输出所述问答结果的语音。
10.一种智能产品的语音交互装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
通过采集模组采集语音信息;
在确定所述语音信息为问询语句时,获取所述问询语句中的所有预设对象文本;
根据所述所有预设对象文本和预设的路径模板,确定所述问询语句对应的所有子图;
根据所述所有子图和预设的语义匹配模型,确定候选子图;
根据所述候选子图确定所述问询语句的问答结果;
通过播放模组输出所述问答结果的语音。
11.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,该程序指令被处理器执行时实现权利要求1-8中任一项所述方法的步骤。
CN202110547962.9A 2021-05-19 2021-05-19 智能产品的语音交互方法、装置及可读存储介质 Pending CN115376504A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110547962.9A CN115376504A (zh) 2021-05-19 2021-05-19 智能产品的语音交互方法、装置及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110547962.9A CN115376504A (zh) 2021-05-19 2021-05-19 智能产品的语音交互方法、装置及可读存储介质

Publications (1)

Publication Number Publication Date
CN115376504A true CN115376504A (zh) 2022-11-22

Family

ID=84058576

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110547962.9A Pending CN115376504A (zh) 2021-05-19 2021-05-19 智能产品的语音交互方法、装置及可读存储介质

Country Status (1)

Country Link
CN (1) CN115376504A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116705026A (zh) * 2023-08-02 2023-09-05 江西科技学院 一种人工智能交互方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116705026A (zh) * 2023-08-02 2023-09-05 江西科技学院 一种人工智能交互方法及系统
CN116705026B (zh) * 2023-08-02 2023-10-13 江西科技学院 一种人工智能交互方法及系统

Similar Documents

Publication Publication Date Title
RU2615632C2 (ru) Способ и устройство распознавания коммуникационных сообщений
US20170154104A1 (en) Real-time recommendation of reference documents
CN109522419B (zh) 会话信息补全方法及装置
CN107590224B (zh) 基于大数据的用户偏好分析方法与装置
CN109558599B (zh) 一种转换方法、装置和电子设备
CN109815396B (zh) 搜索词权重确定方法及装置
CN110619050A (zh) 意图识别方法及设备
CN111209354A (zh) 一种地图兴趣点判重的方法、装置及电子设备
CN111832315B (zh) 语义识别的方法、装置、电子设备和存储介质
CN111984749A (zh) 一种兴趣点排序方法和装置
US11546663B2 (en) Video recommendation method and apparatus
CN113420595A (zh) 数据处理方法、装置、电子设备及存储介质
CN114880480A (zh) 一种基于知识图谱的问答方法及装置
CN110674246A (zh) 问答模型训练方法、自动问答方法及装置
CN115376504A (zh) 智能产品的语音交互方法、装置及可读存储介质
CN113779257A (zh) 文本分类模型的解析方法、装置、设备、介质及产品
CN112307281A (zh) 一种实体推荐方法及装置
CN113849723A (zh) 搜索方法及搜索装置
CN113868433A (zh) 数据处理方法、装置及电子设备
CN113435205A (zh) 语义解析方法及装置
CN110650364B (zh) 视频态度标签提取方法及基于视频的交互方法
CN116166843B (zh) 基于细粒度感知的文本视频跨模态检索方法和装置
CN112768064A (zh) 疾病预测装置及设备、症状信息处理方法、装置及设备
CN111079421B (zh) 一种文本信息分词处理的方法、装置、终端及存储介质
CN112380865A (zh) 识别文本中的实体方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination