CN106875941B - 一种服务机器人的语音语义识别方法 - Google Patents

一种服务机器人的语音语义识别方法 Download PDF

Info

Publication number
CN106875941B
CN106875941B CN201710211576.6A CN201710211576A CN106875941B CN 106875941 B CN106875941 B CN 106875941B CN 201710211576 A CN201710211576 A CN 201710211576A CN 106875941 B CN106875941 B CN 106875941B
Authority
CN
China
Prior art keywords
semantic
database
recognition
voice
service robot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710211576.6A
Other languages
English (en)
Other versions
CN106875941A (zh
Inventor
彭楚奥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201710211576.6A priority Critical patent/CN106875941B/zh
Publication of CN106875941A publication Critical patent/CN106875941A/zh
Application granted granted Critical
Publication of CN106875941B publication Critical patent/CN106875941B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Abstract

本发明提供一种服务机器人的语音语义识别方法,具体包括如下步骤:系统词库建模:建立词库数据库;建立语义框架数据库;建立唇语模式库;系统通过语音识别系统采集用户输入的语音指令和面部视频,分别进行语音语义识别和视频片段唇语识别,根据二者结合识别的结果,将判断的所述中文语义通过显示界面显示。本发明针对不同服务领域设置名词数据库和语义框架数据库,机器人通过词库数据库、语义框架数据库与唇语模式库的结合,来理解所识别的语音指令所需要表达的中文含义,使得语音语义的识别更加准确。

Description

一种服务机器人的语音语义识别方法
技术领域
本发明涉及一种语音语义识别方法,尤其涉及一种服务机器人的语音语义识别方法。
背景技术
计算机科学领域的一个重要分支就是“人工智能”,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
在自然语言处理方面,如何让机器人识别和理解人类的语言,并且模拟人类思维方式去思考、推理问题,是完成“人工智能”这个人类伟大理想的重要举措。不管是中文,还是英文的语言环境中,除了“你”“我”“他”等这类个别的例外之外,词组才是人类表达语义的最小单位。
什么是语义?语义就是自然语言文本的涵义。对机器人来说,就是当机器人遇到这个文本输入的时候,应该进行的回答或响应。例如,当用户问“北京明天什么天气”,计算机能够理解这句话的意图是问天气信息,且城市是北京,时间是明天,从而执行的操作是从特定数据源中查询到北京明天的天气信息并呈现给用户。
语义技术比较适合的应用类型至少有两种:一是操控类的应用,通过语音可以直接发出指令,如语音拨号,发短信等;二是信息查询类的应用,特别是查询条件比较多的情况,传统的交互方式需要用户用文字输入很多查询条件,这对用户来说很繁琐。而语义的交互方式可以让用户通过一句话或者多回合的对话方式获取其所要的信息。
中国服务机器人的应用领域包括金融、家庭服务、教育、医疗、物流、国防、住宿餐饮、电子商务等。对于服务型机器人我们现阶段主要有的就是餐饮机器人、家居机器人、娱乐机器人以及医疗看护机器人等。而且现在的这种类型的机器人已经逐渐被人们接受,使用率也越来越高。
对于服务机器人来说,语音语义技术需要实现的技术目标,是使服务机器人能够理解人类对他输入的句子的意思,这里需要强调的是“理解”,而不是“识别”。识别指的是语音识别,具体是指通过语音识别分析出这句话说的是什么;而理解指的是语义识别,具体是指语义识别分析出这句话是什么意思。机器人要正确理解用户的意思并作出反应,语义识别实际上更为关键。
现有的服务机器人大部分设置有摄像头,通过摄像头的视频录制和实施人工监控,使得即使在嘈杂的环境中,语音识别的正确率仍能保持,在多音源的情况下,识别的准确度需要其他功能的辅助提升语音语义识别的准确度。目前的服务机器人在语音语义识别过程中,仍存在诸多的问题,例如语音设备在采集过程或采集设备本身会带来干扰,导致其准确率不高,或者语音识别基本能涵盖准确识别结果,但是在实时识别过程中需要采用大型的计算机硬件设备,计算量大。
因此,对于服务机器人来说,不仅如何快速、准确识别用户发出的语音指令并对指令的语义进行理解后,做出相应的响应或者回复是体现一个服务机器人性能的重要指标,能否将识别设备变得轻巧、可移动和便携,是一个新的客体要求。
对比文件1:CN102681982A公开一种可让计算机理解的自然语言句子的自动语义识别的方法,涉及到一种可以准确的识别汉语语言的方法。具体它包括以下步聚:a、在某个领域建立本体库;b、基于领域本体建立语义框架知识库;c、基于语义框架的本体映射,实现自然语言句子到语义结构的直观匹配;根据框架模式进行匹配性识别。在出现干扰时,其语音语义识别度容易出现误差,具有局限性。
对比文件2:CN104409075A公开一种语音识别方法,在接收到语音信号时,控制图像采集装置进行图像采集,并在所述语音信号结束时,控制所述图像采集装置停止图像采集;对接收到的语音信号进行识别,以得到语音信号识别结果;对采集到的图像中包含唇部的图像进行唇语识别,以得到唇语识别结果;计算所述语音信号识别结果和唇语识别结果的准确度,将准确度较高的识别结果作为当前的语音识别结果。其通过对所采集的视频进行唇语识别,耗费时间长,计算机计算量大,且需要较大型计算机硬件设备进行支持。
发明内容
本发明要解决的技术问题是提供一种服务机器人的语音语义识别方法,该语音语义识别方法能快速、准确地识别用户发出的语音指令,并对语音指令的语义进行理解后作出相应的回复或者响应;通过唇语识别,对语音语义识别进行辅助后匹配,使得准确率更高。
为了解决上述技术问题,本发明采用以下技术方案:
提供一种服务机器人的语音语义识别方法,具体包括如下步骤:
S1、系统词库建模:
S101、建立词库数据库,所述词库数据库包括代词数据库、动词数据库和名词数据库,将中文汉字中为代词、动词和名词属性的词语和成语分别存入相应的代词数据库、动词数据库和名词数据库;
S102、同时,建立语义框架数据库,所述语义框架数据库包括存入的词语可能的组合方式及组合在一起对应的中文意思;
S103、同时建立唇语模式库,所建立模式库由面部唇语视频运算识别得到模式特征码或由中文文字反推得到标准模式特征码;
S2、系统通过语音识别系统采集用户输入的语音指令和面部视频,将语音指令识别为中文语句,然后将中文语句进行拆解,拆解形式为:代词+动词+名词,并对应词库数据库和语义框架数据库,得到该语音指令的中文语义;
S3、根据语义解析矫正语音识别结果,并输出综合评价概率Pa,其中,Pa为归一化值;
S4、取参数C0,当Pa<C0时,进入S5;否则进入S10;
S5、输出各语义片段识别结果可信概率Ps(1)~Ps(N);
S6、取参数C1、K,当某语音片段识别结果可信概率Ps(n)<C1(n=1~N)时,语义识别输出可信概率最大的K个识别结果(K≥2),否则进入S9;
S7、获取步骤S6中K个识别结果的唇语模式特征RTs(k),其中k=1~K;
S8、根据语音识别系统截取的对应的面部视频片段,通过视频唇部运动模式提取,并形成唇部运动模式特征码RTs0;
S8、使用模式匹配算法,以RTs0和RTs(1)~RTs(k)作为输入,获得VP(1)~VP(K),并取最小值,即Vpmin=min//RTs(k)-RTs0//(k=1~K),其中//为距离算子;
S9、输出Vpmin对应的结果作为识别结果,进入S5循环直至N片段识别完成,进入S10;
S10、所述中文语义通过显示界面显示。
进一步地,
所述步骤S101中所述名词数据库中的名词按不同服务领域进行分类存储,所述服务领域包括餐饮、医疗、购物、运动、住宿、交通;步骤S102中对应的语音框架数据库也根据不同服务领域进行分类存储。
比如:我要吃“饭/小龙虾”,对应的是餐饮领域;
比如:我要看“病”,对应的是医疗领域;
比如:我要买“手机/书本”,对应的是购物领域;
比如:我要打“球/健身”,对应的是运动领域;
比如:我要找“酒店/住宿”,对应的是住宿领域;
再比如:我要去“机场”,对应的是交通领域。
进一步地,
步骤S2中,当系统识别的语音指令的中文语义中包含用户“要”、“想要”、“需要”某件物品或者做某件事情或者“将要”做某件事情的语义时;
所述语音语义识别方法还包括步骤:
S11、系统获取当前用户的位置,同时在该位置附近对包含某件事情或者某件物品的名词相关的事务进行搜索,搜索结果通过显示界面显示。
例如:当用户输入的语音指令为“我要买书”时,系统会获取到用户的当前位置,将附近可以的书店或者可以买书的商家关联对接起来,再查询出价格和库存等信息后对用户进行反馈,并将结果显示在显示界面上。
进一步地,
语音语义识别方法还包括步骤:
S12、用户根据显示界面的搜索结果,进行进一步确认,服务机器人对用户输入的确认指令做出相应回复或响应。
以买书为例,用户根据显示界面上反馈的搜索结果,根据书店或者商家的位置及书的价格等,确定在哪个书店购买书后,可以直接通过服务机器人进行进一步的确认后,直接下单或购买完成。
进一步地,
步骤S1中的词库数据库通过人工录入或者字典采集的方式分类存入不同属性的成语或者词语。
进一步地,
所述步骤S4中,当C0=1时,进入S5;当C0=0时,进入S10。
进一步地,
所述语音语义识别方法还包括系统对每次语音指令识别并转化成中文语义后作出的相应操作进行记录和统计并存储,以便于后续操作中的修正和优化。
进一步地,
所述步骤S2中的语音指令通过麦克风输入,为了使语音指令输入更加清晰准确,用户距离麦克风的距离优选在15m范围内。
进一步地,
所述步骤S10中的中文语义也可以进一步转化成语音信息,通过服务机器人的扬声器输出,方便用户进一步确认,服务机器人对语音指令的识别是否准确。
例如:当用户输入的语音指令为“我要买书”时,服务机器人系统会将该语音指令识别成中文语义“用户要买书”,这一中文语义可以通过文本信息显示在显示界面上,也可以进一步转化成语音信息“您是要买书吗?”通过扬声器输出,以便与用户做更进一步确认。
进一步地,
所述服务机器人的系统通过网络与云平台或者后台管理服务器连接,所述云平台或者后台管理服务器存储有包含某件事情或者某件物品的名词相关的信息,当系统输入搜索指令后,系统会通过网络获取相关信息。
进一步地,
所述步骤S8中,设定Vpmin小于常数C2,否则给出识别提示。
本发明的有益效果:
本发明针对不同服务领域设置名词数据库,可以解决以往汉语语言中,由于前提不明确,语境不清楚等原因造成的语义模糊的问题;以语音语义识别为基础获得中间特征码,然后运用某种距离算子来对语音识别的结果进行判别和选取。
本发明中针对不同的服务领域建立相应的名词数据库,让其在特定的服务环境下,具备明确的语义,然后再建立相应的语义框架数据库,机器人通过词库数据库与语义框架数据库的结合,来理解所识别的语音指令所需要表达的中文含义,同时对识别的含义进行相应的评估,而后进行唇语识别,通过对评价概率低的片段进行唇语识别,实现对语音语义识别的辅助识别。
本发明中的语音语义识别方法中采用唇语识别作为辅助识别手段,解决现有技术中在嘈杂的环境或较远的距离下,使用语音语音语义识别时准确率低的问题;采用片段式唇语识别,对于后续研发轻便、可携带或便携式设备来说,具有重要的意义。
语音和片段视频的结合使用,大大减轻计算量,可以满足可结束的实时需求;使得服务机器人对于用户的语音指令做出更加智能化的响应,提高服务机器人的人工智能化程度。
本发明提供的多个可调整的参数和反馈,为更广泛适配语音识别和唇语识别带来了新的方向。
具体实施方式
下面结合实施例对发明进一步说明,但不用来限制本发明的范围。
实施例1
本实施例提供一种服务机器人的语音语义识别方法,具体包括如下步骤:
S1、系统词库建模:
S101、建立词库数据库,所述词库数据库包括代词数据库、动词数据库和名词数据库,将中文汉字中为代词、动词和名词属性的词语和成语分别存入相应的代词数据库、动词数据库和名词数据库;
S102、同时,建立语义框架数据库,所述语义框架数据库包括存入的词语可能的组合方式及组合在一起对应的中文意思;
S103、同时建立唇语模式库,所建立模式库由面部唇语视频运算识别得到模式特征码或由中文文字反推得到标准模式特征码;
步骤S101中所述名词数据库中的名词进一步按不同服务领域进行分类存储,所述服务领域包括餐饮、医疗、购物、运动、住宿、交通等;步骤S102中对应的语音框架数据库也根据不同服务领域进行分类存储。
比如:我要吃“饭/小龙虾”,对应的是餐饮领域;
比如:我要看“病”,对应的是医疗领域;
比如:我要买“手机/书本”,对应的是购物领域;
比如:我要打“球/健身”,对应的是运动领域;
比如:我要找“酒店/住宿”,对应的是住宿领域;
再比如:我要去“机场”,对应的是交通领域。
S2、打开设备的摄像头,启动语音识别系统,通过语音识别系统采集用户输入的语音指令和面部视频;系统将语音指令识别为中文语句,然后将中文语句进行拆解,拆解形式为:代词+动词+名词,并对应词库数据库和语义框架数据库,得到该语音指令的中文语义。
S3、根据语义解析矫正语音识别结果,并输出综合评价概率Pa,其中,Pa为归一化值;
S4、取参数C0,当Pa<C0时,进入S5;否则进入S10;特别地,当C0=1时,进入S5;当C0=0时,进入S10;C0为唇语识别综合介入系数;特别的,当C0=1时,必定进入下一步;当C0=0时,必定直接输出语音识别结果。根据语音识别的正确率来选取,当语音识别正确率低时,C0可适当取小一些,当语音识别正确率高时,可适当取大一些,其为可调节参数;
S5、输出各语义片段识别结果可信概率Ps(1)~Ps(N);
S6、取参数C1、K,当某语音片段识别结果可信概率Ps(n)<C1(n=1~N)时,语义识别输出可信概率最大的K个识别结果(K≥2),否则进入S9;C1语音片段唇语识别介入系数,类似C0;K为唇语识别判别深度,即语音识别可能性最大的词语并参与唇语识别判别的个数。其中C1的选取标准同C0;K则正好跟C0的选取模式相反;
S7、获取步骤S6中K个识别结果的唇语模式特征RTs(k),其中k=1~K;语音识别根据不同的方法,需要改进算法使得其输出可能性最大的K个语音识别结果;
S8、根据语音识别系统截取的对应的面部视频片段,通过视频唇部运动模式提取,并形成唇部运动模式特征码RTs0;RTs0反映唇部运动模式的一串类似指纹数据的编码;特别地,设定Vpmin小于常数C2,否则给出识别提示;
S8、使用模式匹配算法,以RTs0和RTs(1)~RTs(k)作为输入,获得VP(1)~VP(K),并取最小值,即Vpmin=min//RTs(k)-RTs0//(k=1~K),其中//RTs(k)-RTs0//为距离算子;
S9、输出Vpmin对应的结果作为识别结果,进入S5循环直至N片段识别完成(循环往复完成N个片段,即重复S6~S9步骤N次),进入S10;
S10、所述中文语义通过显示界面显示。
为了进一步与用户确认中文语义的准确性,步骤S10中的中文语义也可以进一步转化成语音信息,通过服务机器人的扬声器输出,方便用户进一步确认,服务机器人对语音指令的识别是否准确。
例如:当用户输入的语音指令为“我要买书”时,服务机器人系统会将该语音指令识别成中文语义“用户要买书”,这一中文语义可以通过文本信息显示在显示界面上,也可以进一步转化成语音信息“您是要买书吗?”通过扬声器输出,以便与用户做更进一步确认。
步骤S2中,当系统识别的语音指令的中文语义中包含用户“要”、“想要”、“需要”某件物品或者做某件事情或者“将要”做某件事情的语义时;
所述语音语义识别方法还包括步骤:
S11、系统获取当前用户的位置,同时在该位置附近对包含某件事情或者某件物品的名词相关的事务进行搜索,搜索结果通过显示界面显示。
例如:当用户输入的语音指令为“我要买书”时,系统会获取到用户的当前位置,将附近可以的书店或者可以买书的商家关联对接起来,再查询出价格和库存等信息后对用户进行反馈,并将结果显示在显示界面上。
本实施例中的语音语义识别方法还包括步骤:
S12、用户根据显示界面的搜索结果,进行进一步确认,服务机器人对用户输入的确认指令做出相应回复或响应。
以买书为例,用户根据显示界面上反馈的搜索结果,根据书店或者商家的位置及书的价格等,确定在哪个书店购买书后,可以直接通过服务机器人进行进一步的确认后,直接下单或购买完成。
步骤S1中的词库数据库可以通过人工录入或者字典采集的方式分类存入不同属性的成语或者词语。
本实施例中为了方便后续操作中对于语义识别的修正和优化,提高语义识别的准确性,所述语音语义识别方法还包括系统对每次语音指令识别并转化成中文语义后作出的相应操作进行记录和统计并存储。
所述步骤S2中的语音指令通过麦克风输入,为了使语音指令输入更加清晰准确,用户距离麦克风的距离优选在15m范围内。
所述服务机器人的系统通过网络与云平台或者后台管理服务器连接,所述云平台或者后台管理服务器存储有包含某件事情或者某件物品的名词相关的信息,当系统输入搜索指令后,系统会通过网络获取相关信息。
语音语义与唇语进行匹配,若匹配结果有误,则提示本次命令无效,提示使用者重新输入。通过语音语义识别和唇语识别的结果匹配相同,则在界面显示该命令,同时服务机器人执行该命令。通过二者的相互印证和补充,使得识别效果更好。
在识别过程中,涉及目前公知的高清图像处理技术和特征提取技术。在本文中未提及的,视为公知常识。
本实施例针对不同服务领域设置名词数据库,可以解决以往汉语语言中,由于前提不明确,语境不清楚等原因造成的语义模糊的问题。本发明中针对不同的服务领域建立相应的名词数据库,让其在特定的服务环境下,具备明确的语义,然后再建立相应的语义框架数据库,机器人通过词库数据库与语义框架数据库的结合,来理解所识别的语音指令所需要表达的中文含义,使得语音语义的识别更加准确。
本实施例中的语音语义识别方法可以通过网络连接到云平台或者后台管理服务器,对识别的中文语义中包含的用户需要的某件物品或想要做的某件事情在用户当前位置的附近进行相关信息的搜索,并将搜索结果反馈给用户做出进一步确认。使得服务机器人对于用户的语音指令做出更加智能化的响应,提高服务机器人的人工智能化程度。
本实施例中的语音语义识别方法中识别语音指令得到的中文语义既可以转化成转化成文本信息通过服务机器人的显示界面显示,也可以进一步转化成语音信息通过服务机器人的扬声器输出,以便用户做出进一步确认中文语义的识别是否准确,并且系统会对每次语音语义识别后作出的相应操作进行记录和统计并存储,以便于后续操作中的修正和优化,提高语义识别的准确性,提高机器人的人工智能化。
通过语音语义和唇语的相互配合,提高服务机器人的人机交互能力,在一定程度上扩展现有人机交互能力。
对于目前语音识别方法,采用与语音识别的同步视频进行唇语识别,其需要采用大型的计算机硬件设备进行,计算量可想而知。本发明提供的方法是以语音语义识别的结果为基础,对筛选的部分片段进行唇语识别,将语音语义识别的结果作为中间特征码,然后运用某种距离算子对语音识别的多个词组进行对应的判别和截取,相比现有直接对语音识别和唇语识别进行独立评价的运算,本发明的运算量明显减少,本发明以语音语义识别为主,以片段唇语识别为辅,降低运算量同时,为可移动设备或便携设备实时识别带来方向。
目前的语音识别处于一个临界态,即准确率较高,但是若语音采集设备和采集过程中收到多音源或外界干扰时,其准确率出现波动;本发明使用唇语识别的特征码对语音识别进行辅助识别可以解决该问题。
本发明通过语音识别,辅助唇语识别,大大减轻计算量,且本发明提供的方法有多个可调整的参数和反馈,为广泛适配语音语义识别和唇语识别带来了益处。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等同物界定。

Claims (10)

1.一种服务机器人的语音语义识别方法,其特征在于,具体包括如下步骤:
S1、系统词库建模:
S101、建立词库数据库,所述词库数据库包括代词数据库、动词数据库和名词数据库,将中文汉字中为代词、动词和名词属性的词语和成语分别存入相应的代词数据库、动词数据库和名词数据库;
S102、同时,建立语义框架数据库,所述语义框架数据库包括存入的词语可能的组合方式及组合在一起对应的中文意思;
S2、系统通过语音识别系统采集用户输入的语音指令和面部视频,将语音指令识别为中文语句,然后将中文语句进行拆解,拆解形式为:代词+动词+名词,并对应词库数据库和语义框架数据库,得到该语音指令的中文语义;
S3、根据语义解析矫正语音识别结果,并输出综合评价概率Pa,其中,Pa为归一化值;
S4、取参数C0,当Pa<C0时,进入S5;否则进入S10;
S5、输出各语义片段识别结果可信概率Ps(1)~Ps(N);
S6、取参数C1、K,当某语音片段识别结果可信概率Ps(n)<C1(n=1~N)时,语义识别输出可信概率最大的K个识别结果(K≥2),否则进入S9;
S7、建立唇语模式库,获取步骤S6中K个识别结果的唇语模式特征RTs(k),其中k=1~K;
S8、根据语音识别系统截取的对应的面部视频片段,通过视频唇部运动模式提取,并形成唇部运动模式特征码RTs0;
S8、使用模式匹配算法,以RTs0和RTs(1)~RTs(k)作为输入,获得VP(1)~VP(K),并取最小值,即VPmin=min//RTs(k)-RTs0//(k=1~K),其中//RTs(k)-RTs0//为距离算子;
S9、输出VPmin对应的结果作为识别结果,进入S5循环直至N片段识别完成,进入S10;
S10、所述中文语义通过显示界面显示。
2.根据权利要求1所述的一种服务机器人的语音语义识别方法,其特征在于,
所述步骤S101中所述名词数据库中的名词按不同服务领域进行分类存储,所述服务领域包括餐饮、医疗、购物、运动、住宿、交通;步骤S102中对应的语音框架数据库也根据不同服务领域进行分类存储。
3.根据权利要求1所述的一种服务机器人的语音语义识别方法,其特征在于,
步骤S2中,当系统识别的语音指令的中文语义中包含用户“要”、“想要”、“需要”某件物品或者做某件事情或者“将要”做某件事情的语义时;
所述语音语义识别方法还包括步骤:
S11、系统获取当前用户的位置,同时在该位置附近对包含某件事情或者某件物品的名词相关的事务进行搜索,搜索结果通过显示界面显示。
4.根据权利要求3所述的一种服务机器人的语音语义识别方法,其特征在于,
语音语义识别方法还包括步骤:
S12、用户根据显示界面的搜索结果,进行进一步确认,服务机器人对用户输入的确认指令做出相应回复或响应。
5.根据权利要求1所述的一种服务机器人的语音语义识别方法,其特征在于,
步骤S1中的词库数据库通过人工录入或者字典采集的方式分类存入不同属性的成语或者词语。
6.根据权利要求1所述的一种服务机器人的语音语义识别方法,其特征在于,
所述语音语义识别方法还包括系统对每次语音指令识别并转化成中文语义后作出的相应操作进行记录和统计并存储,以便于后续操作中的修正和优化。
7.根据权利要求1所述的一种服务机器人的语音语义识别方法,其特征在于,
所述步骤S4中,当C0=1时,进入S5;当C0=0时,进入S10。
8.根据权利要求1所述的一种服务机器人的语音语义识别方法,其特征在于,
所述步骤S10中的中文语义也可以进一步转化成语音信息,通过服务机器人的扬声器输出,方便用户进一步确认,服务机器人对语音指令的识别是否准确。
9.根据权利要求3所述的一种服务机器人的语音语义识别方法,其特征在于,
所述服务机器人的系统通过网络与云平台或者后台管理服务器连接,所述云平台或者后台管理服务器存储有包含某件事情或者某件物品的名词相关的信息,当系统输入搜索指令后,系统会通过网络获取相关信息。
10.根据权利要求1所述的一种服务机器人的语音语义识别方法,其特征在于,
所述步骤S8中,设定VPmin小于常数C2,否则给出识别提示。
CN201710211576.6A 2017-04-01 2017-04-01 一种服务机器人的语音语义识别方法 Active CN106875941B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710211576.6A CN106875941B (zh) 2017-04-01 2017-04-01 一种服务机器人的语音语义识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710211576.6A CN106875941B (zh) 2017-04-01 2017-04-01 一种服务机器人的语音语义识别方法

Publications (2)

Publication Number Publication Date
CN106875941A CN106875941A (zh) 2017-06-20
CN106875941B true CN106875941B (zh) 2020-02-18

Family

ID=59159926

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710211576.6A Active CN106875941B (zh) 2017-04-01 2017-04-01 一种服务机器人的语音语义识别方法

Country Status (1)

Country Link
CN (1) CN106875941B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108255956B (zh) * 2017-12-21 2020-04-03 北京声智科技有限公司 基于历史数据及机器学习自适应获取词库领域的方法及系统
CN108230102A (zh) * 2017-12-29 2018-06-29 深圳正品创想科技有限公司 一种商品关注度调整方法及装置
CN108428453A (zh) * 2018-03-27 2018-08-21 王凯 一种基于唇语识别的智能终端操控系统
CN108831212B (zh) * 2018-06-28 2020-10-23 深圳语易教育科技有限公司 一种口语教学辅助装置及方法
CN108877786A (zh) * 2018-06-29 2018-11-23 恒信东方文化股份有限公司 指令识别方法
CN109145088A (zh) * 2018-08-10 2019-01-04 广东小天才科技有限公司 一种基于家教机的搜索方法及家教机
CN109637521A (zh) * 2018-10-29 2019-04-16 深圳壹账通智能科技有限公司 一种基于深度学习的唇语识别方法及装置
CN109872714A (zh) * 2019-01-25 2019-06-11 广州富港万嘉智能科技有限公司 一种提高语音识别准确性的方法、电子设备及存储介质
CN109961789B (zh) * 2019-04-30 2023-12-01 张玄武 一种基于视频及语音交互服务设备
CN110349568A (zh) * 2019-06-06 2019-10-18 平安科技(深圳)有限公司 语音检索方法、装置、计算机设备及存储介质
CN110349577B (zh) * 2019-06-19 2022-12-06 达闼机器人股份有限公司 人机交互方法、装置、存储介质及电子设备
CN110428838A (zh) * 2019-08-01 2019-11-08 大众问问(北京)信息科技有限公司 一种语音信息识别方法、装置及设备
CN111383138B (zh) * 2020-03-06 2023-06-02 腾讯科技(深圳)有限公司 餐饮数据处理方法、装置、计算机设备和存储介质
CN113763941A (zh) * 2020-06-01 2021-12-07 青岛海尔洗衣机有限公司 语音识别方法、语音识别系统和电器设备
CN112289339A (zh) * 2020-06-04 2021-01-29 郭亚力 一种将语音转化为画面的系统
CN113299294A (zh) * 2021-05-26 2021-08-24 中国平安人寿保险股份有限公司 任务型对话机器人交互方法、装置、设备及存储介质
CN116721661B (zh) * 2023-08-10 2023-10-31 深圳中检实验室技术有限公司 用于智能安全生物柜的人机交互管理系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1120965A (zh) * 1994-05-13 1996-04-24 松下电器产业株式会社 游戏装置,声音选择装置,声音识别装置和声音反应装置
WO2007114346A1 (ja) * 2006-03-30 2007-10-11 Honda Moter Co., Ltd. 音声認識装置
CN102023703A (zh) * 2009-09-22 2011-04-20 现代自动车株式会社 组合唇读与语音识别的多模式界面系统
CN102880645A (zh) * 2012-08-24 2013-01-16 上海云叟网络科技有限公司 语义化的智能搜索方法
CN104409075A (zh) * 2014-11-28 2015-03-11 深圳创维-Rgb电子有限公司 语音识别方法和系统
CN106157956A (zh) * 2015-03-24 2016-11-23 中兴通讯股份有限公司 语音识别的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9741342B2 (en) * 2014-11-26 2017-08-22 Panasonic Intellectual Property Corporation Of America Method and apparatus for recognizing speech by lip reading

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1120965A (zh) * 1994-05-13 1996-04-24 松下电器产业株式会社 游戏装置,声音选择装置,声音识别装置和声音反应装置
WO2007114346A1 (ja) * 2006-03-30 2007-10-11 Honda Moter Co., Ltd. 音声認識装置
CN102023703A (zh) * 2009-09-22 2011-04-20 现代自动车株式会社 组合唇读与语音识别的多模式界面系统
CN102880645A (zh) * 2012-08-24 2013-01-16 上海云叟网络科技有限公司 语义化的智能搜索方法
CN104409075A (zh) * 2014-11-28 2015-03-11 深圳创维-Rgb电子有限公司 语音识别方法和系统
CN106157956A (zh) * 2015-03-24 2016-11-23 中兴通讯股份有限公司 语音识别的方法及装置

Also Published As

Publication number Publication date
CN106875941A (zh) 2017-06-20

Similar Documents

Publication Publication Date Title
CN106875941B (zh) 一种服务机器人的语音语义识别方法
WO2020182153A1 (zh) 基于自适应语种进行语音识别的方法及相关装置
US20230325447A1 (en) Query selection method and system
CN107291783B (zh) 一种语义匹配方法及智能设备
CN111046133B (zh) 基于图谱化知识库的问答方法、设备、存储介质及装置
US11151406B2 (en) Method, apparatus, device and readable storage medium for image-based data processing
US11164568B2 (en) Speech recognition method and apparatus, and storage medium
CN110168535B (zh) 一种信息处理方法及终端、计算机存储介质
WO2017112813A1 (en) Multi-lingual virtual personal assistant
CN107918633B (zh) 基于语义分析技术的敏感舆情内容识别方法和预警系统
CN113033438B (zh) 一种面向模态非完全对齐的数据特征学习方法
CN109920415A (zh) 基于语音识别的人机问答方法、装置、设备和存储介质
CN107515900B (zh) 智能机器人及其事件备忘系统和方法
WO2023020005A1 (zh) 神经网络模型的训练方法、图像检索方法、设备和介质
CN110675871B (zh) 一种语音识别方法及装置
CN111666766A (zh) 数据处理方法、装置和设备
CN112465144A (zh) 基于有限知识的多模态示范意图生成方法及装置
CN111368145A (zh) 一种知识图谱的创建方法、创建系统及终端设备
CN113094478A (zh) 表情回复方法、装置、设备及存储介质
CN116562270A (zh) 一种支持多模态输入的自然语言处理系统及其方法
CN111444321B (zh) 问答方法、装置、电子设备和存储介质
WO2023272616A1 (zh) 一种文本理解方法、系统、终端设备和存储介质
CN113837669A (zh) 一种标签体系的评价指标构建方法和相关装置
CN113658690A (zh) 一种智能导医方法、装置、存储介质以及电子设备
CN113689951A (zh) 一种智能导诊方法、系统和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant