CN104008752B - 语音识别装置及方法、以及半导体集成电路装置 - Google Patents

语音识别装置及方法、以及半导体集成电路装置 Download PDF

Info

Publication number
CN104008752B
CN104008752B CN201410065495.6A CN201410065495A CN104008752B CN 104008752 B CN104008752 B CN 104008752B CN 201410065495 A CN201410065495 A CN 201410065495A CN 104008752 B CN104008752 B CN 104008752B
Authority
CN
China
Prior art keywords
speech recognition
sentence
voice signal
voice
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410065495.6A
Other languages
English (en)
Other versions
CN104008752A (zh
Inventor
野中勉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiwan Semiconductor Manufacturing Co TSMC Ltd
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2013034257A external-priority patent/JP6221253B2/ja
Priority claimed from JP2013042664A external-priority patent/JP6221267B2/ja
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Publication of CN104008752A publication Critical patent/CN104008752A/zh
Application granted granted Critical
Publication of CN104008752B publication Critical patent/CN104008752B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/027Syllables being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/085Methods for reducing search complexity, pruning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Artificial Intelligence (AREA)

Abstract

本发明涉及一种语音识别装置及方法、以及半导体集成电路装置,通过使语音识别中选择项信息的更新变容易从而适当限制选择项信息的范围以提高识别率、或者能应对较深的语音识别分级菜单。语音识别用的半导体集成电路装置包括:将表示单词或者语句的文本数据与指令一起接收并根据指令在转换列表中设定文本数据的转换候选设定部;从语音识别数据库中提取与在转换列表中所设定的文本数据表示的单词或者语句的至少一部分相对应的标准模式的标准模式提取部;提取所输入的语音信号的频率成分并生成表示频率成分的分布状态的特征模式的信号处理部;检测根据语音信号的至少一部分而生成的特征模式和标准模式的一致性并输出语音识别结果的一致检测部。

Description

语音识别装置及方法、以及半导体集成电路装置
技术领域
本发明涉及一种语音识别装置以及语音识别方法,所述语音识别装置及语音识别方法作为自动贩卖机、家电产品、家用设备、车载装置(导航装置等)、以及移动终端等中的人机界面技术的一环,对语音进行识别,并实施与该识别结果相对应的响应及处理。并且,本发明涉及一种在这种语音识别装置中所使用的半导体集成电路装置等。
背景技术
语音识别为一种如下的技术,即,通过对被输入的语音信号进行分析,并将作为该分析的结果而得出的特征模式、与根据被预先收录的语音信号而存储于语音识别数据库中的标准模式(也称为“模板”)进行对照,从而得到识别结果的技术。但是,在未对对照的范围设置限制的情况下,应当进行比较的特征模式与标准模式的组合将成为庞大的数量,从而为了得到识别结果而需要花费较多的时间,并且由于具有相似的标准模式的单词或者语句的数量也会变多,因此将会呈现出识别率降低的趋势。
作为相关联的现有技术,在专利文献1中公开了一种如下的播放装置,其目的在于,不需要预先的准备或大量的词典,通过语音便能够指定应当播放的乐曲等的内容。该播放装置读取被存储在CD中的TOC(Table Of Contents:目录表)数据内的曲名数据,预先将该曲名数据转换为与语音识别结果相同的格式以作为候选数据而进行保存,并将对语音输入的曲名实施语音识别处理而得到的结果与候选数据进行对照,并且对与匹配性最高的候选数据相对应的乐曲进行播放。其结果为,由于能够通过用户的语音来指定应当播放的乐曲,因此减少了由用户实施的显示确认及按钮操作等。
在专利文献1的播放装置中,语音识别中的选择项被限定于被存储在CD中的乐曲,并且作为文字信息的曲名数据被转换成与语音识别结果相同格式的候选数据。但是,将曲名数据等的文字信息转换为候选数据的处理的负担较大,在如以导航装置为代表的这种实施多种多样的信息处理的装置中,难以与已经在实施的其他信息处理并行地,迅速地实施随着该转换处理而产生的语音识别词典的制作及更新等的操作。因此,将产生语音识别处理延迟的问题。
此外,在专利文献2中公开了一种车载信息处理装置,其目的在于,能够在用于语音识别的语音识别词典的更新过程中实施语音识别。该车载信息处理装置具有:连接单元,其上连接有信息终端,所述信息终端具有信息数据和属性数据,所述属性数据包括对该信息数据进行确定的识别信息;语音识别词典制作单元,其取得信息终端所具有的属性数据,并将该属性数据的一部分转换成语音识别信息,并且将该语音识别信息与识别信息关联起来从而制作出语音识别词典;词典存储单元,其对所制作出的语音识别词典进行存储;语音识别处理单元,其实施语音识别处理,所述语音识别处理为,对所输入的语音进行处理,并从语音识别词典中检测出与对应于该语音的语音识别信息相关联的识别信息;信息数据取得单元,其通过设定所检测出的识别信息,从而根据该识别信息来取得信息终端的信息数据,并且所述车载信息处理装置输出基于所取得的信息数据的信息。
专利文献2的车载信息处理装置具有判断单元,在语音识别词典制作单元制作语音识别词典的过程中,所述判断单元通过被存储于词典存储单元中的语音识别词典来实施语音识别处理,并对通过该语音识别处理所检测出的识别信息与信息终端的识别信息一致还是不一致进行判断,在一致时与不一致时,对在信息数据取得单元中设定的识别信息进行变更,从而使所取得的信息数据成为不同的数据。但是,如果在取得了新的属性数据后,使用被存储于词典存储单元中的更新前的语音识别词典来实施语音识别处理,则也存在无法获得良好的语音识别结果的情况。
此外,在语音识别中,对于在根据语音信号而对单词或者语句进行识别时所要求的识别精度的严密性或者模糊性而言,无论具有相似的表达模式的单词或者语句的数量多少,而均被设定为固定。
作为相关联的现有技术,在专利文献3中公开了一种如下的语音识别装置,其目的在于,即使在使用者的讲话模糊的情况下,也能够精度良好地对使用者的讲话进行识别。该语音识别装置为,根据针对所输入的语音的识别结果而对控制对象的控制内容进行确定的语音识别装置,其具备任务种类确定单元和语音识别单元,其中所述任务种类确定单元根据预定的确定输入而对表示控制内容的任务的种类进行确定,所述语音识别单元将由任务种类确定单元确定出的种类的任务作为判断对象,而对所输入的语音进行识别。
在专利文献3的语音识别装置中,当根据语音信号而良好地识别出用户的语句时,即使在用户的语句中未确定出对什么进行内容控制,也能够按照如何进行控制这种指标来对识别对象进行限定,从而对控制对象的控制内容进行确定。但是,在根据语音信号而对用户的语句进行识别时所要求的识别精度的严密性或者模糊性为固定,从而无法提高语音识别中的识别率。
虽然一般情况下,语音识别中的选择项信息保存在语音识别词典中,但是由于语音识别词典的更新需要时间,因此在语音识别处理的执行过程中难以实施对选择项信息的更新。例如,在实施多次提问并根据针对于每次提问的回答而判断说话人的目的的这种情况下,虽然准备了设定有该多次提问和对于这些提问的多个选择项的语音识别脚本,但难以对针对于沿着庞大的脚本而产生的多次提问的多个选择项的选择项信息进行变更。因此,本发明的目的之一在于,通过使语音识别中的选择项信息的更新变得容易,从而适当地限制选择项信息的范围以提高识别率、或者能够应对较深的语音识别分级菜单。
如上所述,在语音识别中,对于根据语音信号而对单词或者语句进行识别时所要求的识别精度的严密性或者模糊性而言,无论具有相似的表达模式的单词或者语句的数量多少,而均被设定为固定。因此,由于在选择项的数量较多时与较少时、或者选择项中相似的语句较多时与较少时,以相同的识别条件来实施语音识别,因此存在语音识别中的识别率得不到提高的问题。
专利文献1:日本特开2005-85433号公报(摘要)
专利文献2:日本特开2011-39202号公报(段落0004~0010)
专利文献3:日本特开2008-64885号公报(段落0006~0010)
发明内容
因此,鉴于上述情况,本发明的目的之一在于,通过适当地限制语音识别中的选择项的数量,并且根据选择项而使语音识别所要求的识别精度的严密性或者模糊性发生变化,从而提高语音识别中的识别率。本发明是为了解决上述的课题或问题中的至少一个而完成的。
为了解决以上的课题,本发明的第一观点所涉及的半导体集成电路装置具备:语音识别数据库存储部,其中存储有语音识别数据库,所述语音识别数据库包括,表示在预定的语言中所使用的多个音素的频率成分的分布状态的标准模式;转换候选设定部,其将表示单词或者语句的文本数据与指令一起接收,并按照指令而在转换列表中设定文本数据;转换列表存储部,其中存储有转换列表;标准模式提取部,其从语音识别数据库中提取与由在转换列表中所设定的文本数据所表示的单词或者语句的至少一部分相对应的标准模式;信号处理部,其通过对所输入的语音信号实施傅立叶转换从而提取语音信号的频率成分,并生成表示语音信号的频率成分的分布状态的特征模式;一致检测部,其对根据语音信号的至少一部分而生成的特征模式、和从语音识别数据库中提取的标准模式之间的一致性进行检测,并输出语音识别结果,所述语音识别结果为,在成为转换候选的多个单词或者语句内确定出被检测为一致的单词或者语句的语音识别结果。
此外,本发明的第一观点所涉及的语音识别装置具备:本发明的第一观点的所涉及半导体集成电路装置;控制部,其将表示单词或者语句的文本数据与指令一起发送至半导体集成电路装置。
并且,本发明的第一观点所涉及的语音识别方法包括如下步骤:步骤(a),将表示单词或者语句的文本数据与指令一起接收,并按照所述指令而在转换列表中设定文本数据;步骤(b),从包括表示在预定的语言中所使用的多个音素的频率成分的分布状态的标准模式的语音识别数据库中,提取与由在转换列表中所设定的文本数据表示的单词或者语句中的至少一部分相对应的标准模式;步骤(c),通过对所输入的语音信号实施傅立叶转换从而提取语音信号的频率成分,并生成表示语音信号的频率成分的分布状态的特征模式;步骤(d),对根据语音信号的至少一部分而生成的特征模式、和从语音识别数据库中提取的标准模式之间的一致进行检测,并输出语音识别结果,所述语音识别结果为,在成为转换候选的多个单词或者语句内确定出被检测为一致的单词或者语句的语音识别结果。
根据本发明的第一观点,通过按照所接收的指令而在转换列表中设定文本数据,并且从语音识别数据库中提取与在转换列表中所设定的文本数据表示的单词或者语句的至少一部分相对应的标准模式,从而使语音识别中的选择项信息的更新变得容易。其结果为,能够适当地对选择项信息的范围进行限制从而提高识别率、或着能够实现对较深的语音识别分级菜单的应对。
本发明的第二观点所涉及的半导体集成电路装置还具备语音信号合成部,所述语音信号合成部接收表示针针对语音识别结果的响应内容的响应数据,并根据响应数据来合成输出语音信号。由此,能够创造出如下的状况,即,可以预测针对于根据响应数据而发出的提问或者消息的用户的回答为几个单词或者语句中的一个。
本发明的第二观点所涉及的语音识别装置具备:本发明的第二观点所涉及的半导体集成电路装置;控制部,其接收语音识别结果,并将响应数据、以及表示单词或者语句的文本数据,与指令一起发送至半导体集成电路装置。由此,能够在转换列表中设定如下的文本数据,即,表示与根据响应数据而发出的提问或者消息相对应的多个单词或者语句的文本数据。
在本发明的第三观点所涉及的半导体集成电路装置中,信号处理部在语音信号的电平超过了预定的值时将语音检测信号激活。由此,能够对有无来自用户的要求或者回答进行判断。
本发明的第三观点所涉及的语音识别装置具备:本发明的第三观点所涉及的半导体集成电路装置;控制部,其以如下的方式对半导体集成电路装置进行控制,即,在从语音检测信号被激活后起在预定的期间内未得到表示特征模式与标准模式之间的一致的语音识别结果的情况下,将应当向转换列表追加的文本数据与指令一起发送至半导体集成电路装置,并实施一致检测。由此,当在预定的期间内未得到表现出特征模式与标准模式之间的一致的语音识别结果的情况下,能够追加选择项而再次实施一致检测。
本发明的第四观点所涉及的半导体集成电路装置具备:语音识别数据库存储部,其中存储有语音识别数据库,所述语音识别数据库包括,表示在预定的语言中所使用的多个音素的频率成分的分布状态的标准模式;转换候选设定部,其将表示成为转换候选的单词或者语句的文本数据、以及表示在对成为转换候选的单词或者语句进行识别时所应用的识别精度的严密性的识别精度参数,与指令一起接受,并按照指令而在转换列表中设定文本数据;转换列表存储部,其对转换列表进行存储;标准模式提取部,其从语音识别数据库中提取与由在转换列表中所设定的文本数据表示的各个单词或者语句的至少一部分相对应的标准模式;识别精度调节部,其按照识别精度参数,而对从语音识别数据库中提取的标准模式的扩展的范围进行调节;信号处理部,其通过对所输入的语音信号实施傅立叶转换从而提取语音信号的频率成分,并生成表示语音信号的频率成分的分布状态的特征模式;一致检测部,如果根据语音信号的至少一部分而生成的特征模式包含在标准模式的扩展的范围内,则所述一致检测部检测为两者一致,并输出语音识别结果,所述语音识别结果为,在成为转换候选的单词或者语句内确定出被检测为一致的单词或者语句的语音识别结果。
此外,本发明的第四观点所涉及的语音识别装置具备:本发明的第四观点所涉及的半导体集成电路装置;控制部,其将表示成为转换候选的多个单词或者语句的文本数据、以及根据该多个单词或者语句而选择的识别精度参数,与指令一起发送至半导体集成电路装置。
并且,本发明的第四观点所涉及的语音识别方法包括如下步骤:步骤(a),将表示成为转换候选的单词或者语句的文本数据、以及表示在对成为转换候选的单词或者语句进行识别时所应用的识别精度的严密性的识别精度参数,与指令一起接收,并按照指令而在转换列表中设定文本数据;步骤(b),从包括表示在预定的语言中所使用的多个音素的频率成分的分布状态的标准模式的语音识别数据库中,提取与由在转换列表中所设定的文本数据所表示的各个单词或者语句中的至少一部分相对应的标准模式;步骤(c),按照识别精度参数,而对从语音识别数据库中提取的标准模式的扩展的范围进行调节;步骤(d),通过对所输入的语音信号实施傅立叶转换从而提取语音信号的频率成分,并生成表示语音信号的频率成分的分布状态的特征模式;步骤(e),如果根据语音信号的至少一部分而生成的特征模式包含在标准模式的扩展的范围内,则检测为两者一致,并输出语音识别结果,所述语音识别结果为,在成为转换候选的单词或者语句内确定出被检测为一致的单词或者语句的语音识别结果。
根据本发明的第四观点,在按照较深的分级菜单而实施语音识别的情况下,通过适当地对选择项的数量进行限制,并且设定适合于选择项的各种组合的识别精度参数,按照识别精度参数而对标准模式的扩展的范围进行调节,从而能够提高语音识别中的识别率。
本发明的第五观点所涉及的半导体集成电路装置还具备语音信号合成部,所述语音信号合成部接收表示针针对语音识别结果的响应内容的响应数据,并根据响应数据来合成输出语音信号。由此,能够创造出如下的状况,即,可以预测针对于根据响应数据而发出的提问或者消息的用户的回答为几个单词或者语句中的一个。
本发明的第五观点所涉及的语音识别装置具备:本发明的第五观点所涉及的半导体集成电路装置;控制部,其根据从半导体集成电路装置输出的语音识别结果而从多个响应内容中选择响应内容,并将表示所选择的响应内容的响应数据、表示作为针对响应内容的回答而成为转换候选的单词或者语句的文本数据、以及根据成为转换候选的单词或者语句而选择的识别精度参数,与指定一起发送至半导体集成电路装置。由此,能够在转换列表中设定如下的文本数据,即,表示与根据响应数据而发出的提问或者消息相对应的多个表示单词或者语句的文本数据,并且在识别精度调节部中设定根据这些单词或者语句而选择的识别精度参数。
本发明的第六观点所涉及的半导体集成电路装置中,信号处理部在语音信号的电平超过了预定的值时将语音检测信号进行激活。由此,能够对有无来自用户的要求或者回答进行判断。
本发明的第六观点所涉及的语音识别装置具备:本发明的第六观点所涉及的半导体集成电路装置;控制部,其以如下的方式对半导体集成电路装置进行控制,即,在从语音检测信号被激活起的预定的期间内未得到表示特征模式与标准模式之间的一致的语音识别结果的情况下,将新的识别精度参数与新的指令一起发送至半导体集成电路装置,并实施一致检测。由此,当在预定的期间内未得到表现出特征模式与标准模式之间的一致的语音识别结果的情况下,能够变更识别精度参数而再次实施一致检测。
附图说明
图1为表示本发明的一个实施方式所涉及的语音识别装置的结构例的图。
图2为表示由图1所示的语音识别装置所实施的语音识别方法的流程图。
图3为表示本发明的另一个实施方式所涉及的语音识别装置的结构例的图。
图4为表示由图3所示的语音识别装置所实施的语音识别方法的流程图。
图5为表示包括食品菜单上所显示的多个食品名的转换列表A的图。
图6为包括针对提问的多个回答的转换列表B的图。
具体实施方式
以下,参照附图对本发明的实施方式进行详细说明。
图1为,表示本发明的一个实施方式所涉及的语音识别装置的结构例的图。该语音识别装置例如被搭载于自动贩卖机、家电产品、家用设备、车载装置(导航装置等)或者移动终端等中,且对用户的语音进行识别,并实施与该识别结果相对应的响应及处理。
如图1所示,语音识别装置包括:语音输入部10、A/D转换器20、语音识别用的半导体集成电路装置30A、D/A转换器40、语音输出部50、控制部60。另外,也可以将语音输入部10、A/D转换器20、D/A转换器40以及语音输出部50中的至少一部分内置于半导体集成电路装置30A中。
控制部60包括主机CPU(Central Processing Unit:中央处理器)61、存储部62。主机CPU61根据被存储在存储部62的记录介质中的软件(语音识别控制程序)而进行动作。作为记录介质,可以使用硬盘、软盘、MO(光磁盘)、MT(磁带)、CD-ROM或者DVD-ROM等。主机CPU61通过向半导体集成电路装置30A供给控制信号,从而对半导体集成电路装置30A中的语音识别动作进行控制。
语音输入部10包括:话筒,其将语音转换为电信号(语音信号);放大器,其对从话筒输出的语音信号进行放大;低通滤波器,其对放大后的语音信号的频带进行限制。A/D转换器20通过对从语音输入部10输出的模拟的语音信号进行取样,从而将其转换为数字的语音信号(语音数据)。例如,语音数据的语音频带为12kHz、比特数为16比特。
半导体集成电路装置30A包括:信号处理部31、语音识别DB(Data Base:数据库)存储部32、转换候选设定部33、转换列表存储部34、标准模式提取部35、一致检测部37。并且,半导体集成电路装置30A还可以包括语音信号合成部38及/或语音合成DB(数据库)存储部39。
信号处理部31通过对所输入的语音信号实施傅立叶转换,从而提取语音信号的多个频率成分,并生成表示语音信号的频率成分的分布状态的特征模式。所生成的特征模式被输出至一致检测部37。此外,信号处理部31在所输入的语音信号的电平超出了预定的值时,对语音检测信号进行激活并向一致检测部37以及主机CPU61输出。由此,能够对有无来自用户的要求或回答进行判断。
在此,对根据语音信号而求出特征模式的方法的一个示例进行说明。信号处理部31对所输入的语音信号实施过滤处理而强调高频成分。接下来,信号处理部31通过对由语音信号所表示的语音波形加以海明窗,从而每隔预定的时间而对时间序列的语音信号进行划分由此制作出多个帧。并且,信号处理部31通过针对于每一帧而对语音信号进行傅立叶转换,从而提取多个频率成分。由于各个频率成分为复数,因此信号处理部31求出各个频率成分的绝对值。
信号处理部31通过对这些频率成分施加根据梅尔刻度(mel scale)而确定的频率区域的窗并进行积分,从而求出与窗的数量相对应的数量的数值。并且,信号处理部31取得这些数值的对数,并对对数值进行离散余弦转换。由此,如果频率区域的窗为20个,则将获得20个数值。
在以这种方式而获得的数值内,低次的值(例如,12个)被称为MFCC(Mel-Frequency Cepstral Coefficients:梅尔频率倒频谱系数)。信号处理部31针对每一帧而计算出MFCC,并按照HMM(Hidden Markov Model:隐马尔可夫模型)而对MFCC进行连结,作为与以时间序列而被输入的语音信号中所含有的各个音素相对应的MFCC而求出特征模式。
在此,“音素”是指,在某一语言中视为相同的声音的要素。以下,对作为语音而使用了日语的情况进行说明。作为日语的音素,有“a”、“i”、“u”、“e”、“o”的元音、“k”、“s”、“t”、“n”等的辅音、“j”、“w”的半元音、“N”、“Q”、“H”的特殊音拍。
语音识别数据库存储部32存储有包含标准模式的语音识别数据库,其中,所述标准模式对于在预定的语言中所使用的各种音素而表示出频率成分的分布状态。在语音识别数据库中,表示各种音素的文本数据、与作为选择项信息的标准模式被对应起来。
标准模式是使用多个(例如,200人左右)说话人所发出的语音而被预先制成的。在标准模式的制作中,根据表示各个音素的语音信号而求出MFCC。但是,在使用多个说话人所发出的语音而制成的MFCC中,各自的数值具有偏差。
因此,针对各个音素的标准模式,在多维空间(例如,十二维空间)中具有包括偏差的扩展。如果根据被输入至信号处理部31的语音信号而生成的特征模式包含在标准模式的扩展的范围内,则判断为两者的音素一致。
此外,也可以不是一个语音识别数据库,而使用多个语音识别数据库。例如,语音识别数据库存储部32还可以存储有多个语音识别数据库,所述多个语音识别数据库为,根据收录年龄以及性别不同的多组说话人的语音而得出的语音信号所生成的多个语音识别数据库。在这种情况下,一致检测部37能够从多个语音识别数据库中选择可良好地检测出音素的一致的语音识别数据库来进行使用。
或者,在能够确定使用语音识别装置的用户的年龄以及性别的情况下,也可以采用如下方式,即,语音识别数据库存储部32将根据通过收录年龄以及性别有所不同的多组说话人的语音而获得的语音数据所生成的多个语音识别数据库,与用于确定年龄以及性别的信息对应起来而进行存储。在这种情况下,一致检测部37能够从存储在语音识别数据库存储部32中的多个语音识别数据库内,按照用于确定使用语音识别装置的用户的年龄以及性别的信息,来选择一个语音识别数据库而进行使用。
转换候选设定部33在从主机CPU61与指令一起接收到表示成为转换候选的多个单词或者语句的文本数据时,按照所接收的指令,而在转换列表中设定文本数据。转换列表存储部34对该转换列表进行存储。
作为指令,例如使用用于对转换列表中的全部的文本数据进行重新设定的设定指令、用于在转换列表中追加一部分的文本数据的追加指令、用于从转换列表中删除一部分的文本数据的删除指令。因此,还能够不更换转换列表整体,而对转换列表的一部分任意地进行变更。另外,也可以在转换列表中预先设定有预定的文本数据。
在转换列表存储部34中,当在转换列表中设定有新的文本数据时,标准模式提取部35从语音识别数据库中提取出,与由被设定于转换列表中的文本数据所表示的单词或者语句的至少一部分相对应的标准模式。
一致检测部37在语音检测信号被激活时进行动作,并通过将根据所输入的语音信号的至少一部分而生成的特征模式、与从语音识别数据库中提取出的标准模式进行比较,从而对两者的一致性进行检测。
例如,一致检测部37将根据所输入的语音信号的开头的音节而生成的特征模式、与由被设定于转换列表中的文本数据所表示的各个单词或者语句的开头的音节相对应的标准模式标准模式进行比较。另外,还可以采用如下方式,即,当转换列表中仅存在一个在开头具有被检测为一致的音节的转换候选的情况下,判断为该转换候选成为转换后的单词或者语句。在转换列表中存在多个在开头具有被检测为一致的音节的转换候选的情况下,一致检测部37将逐渐扩大应当被检测一致性的音节的范围,直至转换候选缩小为一个。
在此,“音节”是指,以一个元音作为主音,而由该元音单独构成或者在该元音的前后伴有一个或者多个辅音而构成的音的概括。此外,半元音或特殊音拍也可以构成音节。即,一个音节由一个或者多个音素构成。作为日语的音节,有“あ”、“い”、“う”、“え”、“お”、“か”、“き”、“く”、“け”、“こ”等。
例如,与音节“あ”相对应的标准模式为,针对于构成音节“あ”的音素“a”的标准模式。此外,与音节“か”相对应的标准模式为,针对于构成音节“か”的第一个音素“k”的标准模式、和针对于构成音节“か”的第二个音素“a”的标准模式。
在所输入的语音信号的一个音节由一个音素构成的情况下,如果检测为该音素一致,则检测为音节一致。另一方面,在所输入的语音信号的一个音节由多个音素构成的情况下,如果检测为这些音素一致,则检测为音节一致。
当检测出特征模式与标准模式一致时,一致检测部37将用于确定具有被检测为一致的音节的单词或者语句的信息、例如表示该单词或者语句的文本数据,作为语音识别结果而输出。由此,主机CPU61能够对与被输入至半导体集成电路装置30A的语音信号的至少一部分相对应的单词或者语句进行识别。
主机CPU61根据从半导体集成电路装置30A输出的语音识别结果而从多个响应内容(提问或者消息)中选择一个响应内容,并将表示所选择的响应内容的响应数据发送至半导体集成电路装置30A。
半导体集成电路装置30A的语音信号合成部38从主机CPU61接收表示针对于语音识别结果的响应内容的响应数据,并根据所接收的响应数据,来合成表示应当输出的语音的语音信号。为了合成语音信号,可以使用被存储在语音合成数据库存储部39中的语音合成数据库,但也可以使用被存储在语音识别数据库存储部32中的语音识别数据库来合成语音信号。
在这种情况下,例如语音信号合成部38针对响应内容中所包含的各个因素,根据语音识别数据库中所包含的标准模式而求出频谱。并且,语音信号合成部38通过对频谱进行逆傅立叶转换而求出语音波形,并将关于响应内容所包含的多个音素的多个语音波形连在一起,从而合成与响应内容相对应的数字的语音信号。
D/A转换器40将从语音信号合成部38输出的数字的语音信号转换为模拟的语音信号。语音输出部50包括功率放大器和扬声器,其中,所述功率放大器对从D/A转换器40输出的模拟的语音信号进行功率放大,所述扬声器根据被实施了功率放大后的语音信号来发出语音。扬声器将由从主机CPU61供给的响应数据所表示的响应内容作为语音而输出。由此,能够形成如下的状况,即,针对于基于响应数据而发出的提问或者消息的、用户的回答,被预测为几个单词或者语句中的一个。
此外,主机CPU61将表示如下内容的文本数据与设定指令一起发送至半导体集成电路装置30A,所述内容为,作为针对于所选择的提问或者消息所作出的回答而成为转换候选的多个单词或者语句。当半导体集成电路装置30A的转换候选设定部33从主机CPU61接收到设定指令以及文本数据时,按照所接收到的设定指令而在转换列表中设定文本数据。由此,能够在转换列表中设定表示如下内容的文本数据,所述内容为,作为针对于基于响应数据而发出的提问或者消息所作出的回答而成为转换候选的多个单词或者语句。
接下来,参照图1和图2对本发明的一个实施方式所涉及的语音识别方法进行说明。图2为,表示由图1所示的语音识别装置实施的语音识别方法的流程图。
在图2的步骤S1中,主机CPU61在半导体集成电路装置30A的电源接通时或者重新启动后,将表示一个提问或者消息的响应数据、以及表示作为针对于该提问或者消息的回答而成为转换候选的多个单词或者语句的文本数据,与设定指令一起发送至半导体集成电路装置30A。
在步骤S2中,半导体集成电路装置30A的转换候选设定部33从主机CPU61接收设定指令以及文本数据,并按照所接收的设定指令而在转换列表中设定文本数据。
当在转换列表中设定有新的文本数据时,在步骤S3中,标准模式提取部35从包含表示在预定的语言中所使用的多个音素的频率成分的分布状态的标准模式的语音识别数据库中提取出如下的标准模式,所述标准模式为,与由在转换列表中所设定的文本数据所表示的各个单词或者语句的至少一部分相对应的标准模式。
在步骤S4中,语音信号合成部38根据所接收到的响应数据来合成语音信号,由此从语音输出部50发出提问或者消息。当用户对该提问或消息进行回答而发出语音时,在步骤S5中,信号处理部31对所输入的语音信号实施傅立叶转换,由此而提取语音信号的频率成分,并生成表示语音信号的频率成分的分布状态的特征模式。此外,信号处理部31对语音检测信号进行激活。
当语音检测信号被激活时,在步骤S6中,一致检测部37对根据所输入的语音信号的至少一部分而生成的特征模式、和从语音识别数据库提取的标准模式之间的一致性进行检测,并输出语音识别结果,所述语音识别结果为,在成为转换候选的多个单词或者语句中确定出被检测为一致的单词或者语句的语音识别结果。
可以以如下方式对半导体集成电路装置30A进行控制,即,当从语音检测信号被激活起的预定的期间内未获得表现出特征模式与标准模式之间的一致的语音识别结果的情况下,主机CPU61将应当向转换列表中追加的文本数据与追加指令一起发送至半导体集成电路装置30A,并再次实施一致检测。由此,当在预定的期间内未获得表现出特征模式与标准模式之间的一致的语音识别结果的情况下,能够追加选择项而再次实施一致检测。
或者,主机CPU61可以将表示“请重复”等的消息的响应数据发送至半导体集成电路装置30A,也可以将表示换种说法以便易于理解的提问的响应数据发送至半导体集成电路装置30A。语音信号合成部38根据从主机CPU61供给的响应数据来合成语音信号,并从语音输出部50发出新的消息或者提问。
当从语音检测信号被激活起的预定的期间内获得了表现出特征模式与标准模式之间的一致的语音识别结果时,在步骤S7中,主机CPU61对一系列的语音识别动作是否完成进行判断。如果一系列的语音识别动作已完成,则处理结束。另一方面,如果一系列的语音识别动作未完成,则处理将转移至步骤S8。
在步骤S8中,主机CPU61根据从半导体集成电路装置30A输出的语音识别结果而从多个响应内容中选择一个响应内容,并将表示所选择的响应内容的响应数据、以及表示作为针对于所选择的响应内容的回答而成为转换候选的多个单词或者语句的文本数据,与设定指令一起发送至半导体集成电路装置30A。并且通过这种方式反复实施步骤S2以后的处理。
根据本发明的一个实施方式,通过使用基于语音识别脚本的转换列表,从而能够将与所输入的语音信号的特征模式进行比较的标准模式缩小为如下的标准模式,即,与由在转换列表中所设定的文本数据所表示的各个单词或者语句的至少一部分相对应的标准模式。
此时,转换列表的内容能够通过从主机CPU61向半导体集成电路装置30A发送设定指令以及文本数据,从而按照语音识别脚本而自由地进行设定。另一方面,通过从主机CPU61向转换候选设定部33发送删除指令以及文本数据,从而能够从转换列表中删除不需要的转换候选,以降低语音识别处理的负担。
此外,通过从语音识别数据库中提取与由在转换列表中所设定的文本数据表示的各个单词或者语句的至少一部分相对应的标准模式,从而使语音识别中的选择项信息的更新变得容易。其结果为,能够适当地对选择项信息的范围进行限制从而提高识别率,或者能够实现对较深的语音识别分级菜单的应对。
接下来,对本发明的一个实施方式所涉及的语音识别装置中的语音识别动作的具体例进行说明。在此,对将图1所示的语音识别装置应用于食堂中的饭票的自动贩卖机的情况进行说明。
在自动贩卖机上显示有包括多个食品名的食品菜单。在食品菜单中显示有“荞麦面”、“乌冬面”、“咖喱饭”、“猪排饭”等的文字。在这种情况下,预测用户发出的最初的语言为在食品菜单中所显示的“荞麦面”、“乌冬面”、“咖喱饭”、“猪排饭”等中的任意一个。
因此,主机CPU61在自动贩卖机的电源接通时或者重新启动后,将表示食品菜单中所显示的多个食品名的文本数据与设定指令一起发送至半导体集成电路装置30A。半导体集成电路装置30A的转换候选设定部33按照所接收的设定指令而在转换列表中设定所接收的文本数据。
此外,当在中途向食品菜单追加了食品的情况下,主机CPU61将表示所追加的食品名的文本数据与追加指令一起发送至半导体集成电路装置30A。半导体集成电路装置30A的转换候选设定部33按照所接收的追加指令而将所接收的文本数据追加于转换列表中。
另一方面,当在中途一部分的食品售罄的情况下,主机CPU61将表示变为售罄的食品名的文本数据与删除指令一起发送至半导体集成电路装置30A。半导体集成电路装置30A的转换候选设定部33按照所接收的删除指令而将所接收的文本数据从转换列表中删除。
以这种方式,制成了图5所示的转换列表A。虽然在图5中,图示了与食品名相对应的编号、食品名的日语表述、食品名所包含的音素的罗马字表述,但只要在转换列表中至少包含有能够确定食品名所包含的音素的罗马字表述或者假名表述即可。
当转换列表A被制成时,标准模式提取部35针对于转换列表A所包含的食品名“荞麦面”、“乌冬面”、“咖喱饭”、“猪排饭”等的开头的音节“そ”、“う”、“カ”、“カ”等所包含的音素“s和o”、“u”、“k和a”、“k和a”等的各个音素,从语音识别数据库中提取相对应的标准模式。
此外,主机CPU61将表示“选择哪一个食品?请说出食品名。”的提问或者消息的通讯数据发送至半导体集成电路装置30A。半导体集成电路装置30A的语音信号合成部38根据该通讯数据来合成语音信号并向D/A转换器40输出,D/A转换器40将数字的语音信号转换为模拟的语音信号,并将模拟的语音信号输出至语音输出部50。由此,从语音输出部50发出“选择哪一个食品?请说出食品名。”的提问或者消息。
对于通过语音输出部50而发出的提问或者消息,当用户观察所显示的食品菜单而说出“猪排饭。”时,信号处理部31针对于音素“k、a、t、u、d、o、N…”的各个音素,而生成表示频率成分的分布状态的特征模式。
一致检测部37通过对由信号处理部31生成的开头的音节的第一个音素“k”的特征模式、和从语音识别数据库中提取的开头的音节的第一个音素“s”、“u”、“k”、“k”等的标准模式进行比较,从而检测出与音素“k”一致。
当被检测为一致的音素表示为辅音的情况下,一致检测部37通过进一步对开头的音节的第二个音素进行比较。一致检测部37通过对由信号处理部31生成的开头的音节的第二个音素“a”的特征模式、和从语音识别数据库中提取的开头的音节的第二个音素“o”、“a”、“a”等的标准模式进行比较,从而检测出与音素“a”的一致。
由此,检测出与音节“カ”的一致。如果检测为一致的食品名为一个,则就此得出语音识别结果。但是,由于在转换列表包含有食品名“咖喱饭”和食品名“猪排饭”,因此无法识别出与哪一个相符。在这种情况下,一致检测部37将扩大应当被检测一致性的音节的范围。
即,一致检测部37将如下的信号输出至标准模式提取部35,所述信号为,委托对与转换列表中所包含的上述食品名的第二个音节相对应的标准模式进行提取的信号。由此,标准模式提取部35针对于转换列表中所包含的食品名“咖喱饭”以及“猪排饭”的第二个音节“レ”以及“ツ”所包含的音素“r和e”以及“t和u”的各个音素,从语音识别数据库中提取表示频率成分的分布状态的标准模式。
一致检测部37通过对由信号处理部31生成的第二个音节的第一个音素“t”的特征模式、和从语音识别数据库中提取的第二个音节的第一个音素“r”以及“t”的标准模式进行比较,从而检测出与音素“t”一致。
并且,一致检测部37通过对由信号处理部31生成的第二个音节的第二个音素“u”的特征模式、和从语音识别数据库中提取的第二个音节的第二个音素“e”以及“u”的标准模式进行比较,从而检测出与音素“u”一致。
由此,检测出与音节“ツ”一致。当还存在具有开头的音节“カ”以及第二个音节“ツ”的其他食品名的情况下,一致检测部37只需进一步扩大应当被检测一致性的音节的范围即可。一致检测部37将确定具有被检测为一致的开头的音节“カ”以及第二个音节“ツ”的食品名“猪排饭”的语音识别结果输出至主机CPU61。
作为用于确定食品名“猪排饭”的信息,有图3所示的编号、食品名的日语表述“猪排饭”或其一部分“猪排”、食品名所包含的音素的罗马字表述”katudoN”或其一部分“katu”等。由此,主机CPU61能够识别出与所输入的语音信号的至少一部分相对应的食品名“猪排饭”。
当以这种方式结束第一次的语音识别动作时,主机CPU61将开始实施第二次的语音识别动作。主机CPU61根据所接收到的语音识别结果,从由被存储于存储部62中的响应数据所表示的多个响应内容的中选择一个适当的响应内容,并将表示所选择的响应内容的响应数据、以及表示作为针对于所选的响应内容的回答的多个转换候选的文本数据,与设定指令一起发送至半导体集成电路装置30A。
半导体集成电路装置30A的转换候选设定部33按照所接收的设定指令,在从转换列表中删除当前的全部文本数据之后,在转换列表中设定所接收的文本数据。
例如,主机CPU61将表示“几个?”的提问的响应数据供给至语音信号合成部38。在这种情况下,可预测出用户针对该提问而发出的最初的语句为“一个”、“两个”、“三个”等的多个回答中的某一个。因此,主机CPU61将表示“一个”、“两个”、“三个”等的多个回答的文本数据与设定指令一起发送至半导体集成电路装置30A。
以这种方式,制成图6所示的转换列表B。当转换列表B被制成时,标准模式提取部35针对于由转换列表B中所包含的文本数据所表示的单词“一个”、“两个”、“三个”等的开头的音节“ひ”、“ふ”、“み”等所包含的音素“h和i”、“h和u”、“m和i”等的各个音素,从语音识别数据库中提取表示频率成分的分布状态的标准模式。
语音信号合成部38根据从主机CPU61供给的响应数据来合成语音信号并向D/A转换器40输出,D/A转换器40将数字的语音信号转换为模拟的语音信号,并将模拟的语音信号输出至语音输出部50。由此,从语音输出部50对用户发出“几个?”的提问。
对于通过语音输出部50而发出的提问,当用户说出“一个。”时,信号处理部31针对于音素“h、i、t、o、t、u…”的各个音素,生成表示频率成分的分布状态的特征模式。
一致检测部37通过对由信号处理部31生成的开头的音节的第一个音素“h”的特征模式、和从语音识别数据库中提取的开头的音节的第一个音素“h”、“h”、“m”等的标准模式进行比较,从而检测出音素“h”的一致。
在检测为一致的音素表示为辅音的情况下,一致检测部37通过进一步对由信号处理部31生成的开头的音节的第二个音素“i”的特征模式、和从语音识别数据库中提取的开头的音节的第二个音素“i”、“u”、“i”等的标准模式进行比较,从而检测出与音素“i”一致。
由此,检测出与音节“ひ”一致。一致检测部37将确定在开头具有检测为一致的音节“ひ”的单词“一个”的语音识别结果输出至主机CPU61。由此,主机CPU61能够识别出与所输入的语音信号的至少一部分相对应的单词“一个”。
因此,主机CPU61将表示“请投入○○○元。”的消息的响应数据供给至语音信号合成部38。语音信号合成部38根据从主机CPU61供给的响应数据来合成语音信号并向D/A转换器40输出,D/A转换器40将数字的语音信号转换为模拟的语音信号,并将模拟的语音信号输出至语音输出部50。由此,通过语音输出部50而对用户发出“请投入○○○元。”的消息。
接下来,参照附图对本发明的另一个实施方式进行详细说明。
图3为,表示本发明的另一个实施方式的语音识别装置的结构例的图。该语音识别装置例如被搭载于自动贩卖机、家电产品、家用设备、车载装置(导航装置等)或者移动终端等,且对用户的语音进行识别,并实施与该识别结果相对应的响应或处理。
另外,关于在图3中示出的结构,由于对于以与图1相同的编号而指示的结构而言,与对图1所实施的说明相同,因此以下省略该结构的说明。
半导体集成电路装置30B包括:信号处理部31、语音识别DB(数据库)存储部32、转换候选设定部33、转换列表存储部34、标准模式提取部35、识别精度调节部36、一致检测部37。并且,半导体集成电路装置30B也可以包括语音信号合成部38及/或语音合成DB(数据库)存储部39。
转换候选设定部33将表示成为转换候选的多个单词或者语句的文本数据、以及表示在根据语音信号来识别单词或者语句时所应用的识别精度的严密性的识别精度参数与指令一起从主机CPU61接收。此外,转换候选设定部33按照所接收的指令而在转换列表中设定文本数据,并且在识别精度调节部36中设定识别精度参数。转换列表存储部34对转换列表进行存储。
作为指令,例如使用了用于对转换列表中的所有的文本数据以及识别精度参数进行重新设定的设定指令、用于向转换列表中追加一部分文本数据的追加指令、用于从转换列表中删除一部分文本数据的删除指令。因此,能够无需更换转换列表全体,而任意对转换列表的一部分进行变更。此外,也可以使用用于仅对识别精度参数进行变更的变更指令。另外,也可以在转换列表中预先设定有预定的文本数据。
识别精度调节部36按照由转换候选设定部33设定的识别精度参数,而对从语音识别数据库32中提取的标准模式的扩展的范围进行调节。虽然由标准模式提取部35从语音识别数据库32中提取的标准模式,在多维空间具有含有偏差的扩展,但识别精度调节部36对该标准模式的扩展的范围进行调节。
在以下的示例中,由识别精度参数表示的识别精度的严密性或者模糊性被分为从最模糊的等级1到最精确的等级M的M个等级(M为2以上的自然数)。当用A1(i)~A2(i)(i=1,2,…,N)表示某标准模式A在N维空间(N为自然数)中的扩展时,通过识别精度调节部36而被调节后的标准模式A的扩展的范围A1a(i)~A2a(i)将使用等级R(1≤R≤M)并例如通过下式而表示。
A1a(i)=A1(i)-k·(M-R)·(A2(i)-A1(i))
A2a(i)=A2(i)+k·(M-R)·(A2(i)-A1(i))
在此,k为常数。
例如,当在汽车的控制中应用语音识别的情况下,为了防止实施错误的控制,而设定了表示最精确的等级M的识别精度参数“M”。另一方面,在选择转换列表所包含的两个单词中的一个的这种情况下,语音识别中产生错误的可能性较低,因此设定了表示最模糊的等级1的识别精度参数“1”。
或者,也可以根据在转换列表中选择项的数量与预定的数量相比较多还是较少来设定不同的识别精度参数。此外,还可以根据在转换列表中选择项所包含的相似的语言与预定的数量相比较多还是较少来设定不同的识别精度参数。
一致检测部37在语音检测信号被激活时进行动作,对由信号处理部31生成的特征模式、和通过识别精度调节部36而被调节了扩展的范围的标准模式进行比较。而且,一致检测部37对如下内容进行判断,即,根据所输入的语音信号的至少一部分而生成的特征模式是否包含在通过识别精度调节部36而被调节的标准模式的扩展的范围内。
比较是针对N维空间的各个成分而实施的,对于i=1,2,…,N,只要满足下式,则判断为特征模式B包含在标准模式A的扩展的范围内。
A1a(i)≤B(i)≤A2a(i)
如果根据所输入的语音信号的至少一部分而生成的特征模式包含在标准模式的扩展的范围内,则一致检测部37检测为两者一致。
例如,一致检测部37将根据所输入的语音信号的开头的音节而生成的特征模式,与由在转换列表中所设定的文本数据所表示的各个单词或者语句的开头的音节相对应的标准模式进行比较。当在转换列表中仅存在一个在开头具有被检测为一致的音节的转换候选的情况下,该转换候选将成为转换后的单词或者语句。另一方面,当在转换列表中存在多个在开头具有被检测为一致的音节的转换候选的情况下,一致检测部37将扩大应当被检测一致性的音节的范围,直至转换候选缩小为一个。
此外,主机CPU61将表示作为对于所选择的提问或者消息的回答而成为转换候选的多个单词或者语句的文本数据、及根据这些单词或者语句而选择的识别精度参数,与设定指令一起发送至半导体集成电路装置30B。
当从主机CPU61处将文本数据以及识别精度参数与设定指令一起接收到时,半导体集成电路装置30B的转换候选设定部33按照所接收的设定指令,而在转换列表中设定文本数据,并且在识别精度调节部36中设定识别精度参数。由此,能够在转换列表中设定表示与根据响应数据而发出的提问或者消息相对应的多个单词或者语句的文本数据,并且在识别精度调节部36中设定根据这些单词或者语句而选择的识别精度参数。
接下来,参照图3以及图4对本发明的一个实施方式所涉及的语音识别方法进行说明。图4为,表示由图3所示的语音识别装置实施的语音识别方法的流程图。
在图4的步骤S1中,主机CPU61在半导体集成电路装置30B的电源接通时或者重新启动后,将表示一个提问或者消息的通讯数据、表示作为针对于该提问或者消息的回答而成为转换候选的多个单词或者语句的文本数据、以及根据这些单词或者语句而选择的识别精度参数,与设定指令一起发送至半导体集成电路装置30B。
在步骤S2中,半导体集成电路装置30B的转换候选设定部33从主机CPU61处将文本数据以及识别精度参数与设定指令一起接收。转换候选设定部33按照所接收的设定指令而在转换列表中设定文本数据,并且在识别精度调节部36中设定识别精度参数。
当在转换列表中设定了新的文本数据时,在步骤S3中,标准模式提取部35从包括表示在预定的语言中所使用的多个音素的频率成分的分布状态的标准模式的语音识别数据库中,提取与在转换列表中所设定的文本数据所表示的各个单词或者语句的至少一部分相对应的标准模式。此外,在步骤S4中,识别精度调节部36按照识别精度参数,对从语音识别数据库中提取的标准模式的扩展的范围进行调节。
在步骤S5中,语音信号合成部38根据所接收到的通讯数据来合成语音信号,由此从语音输出部50而发出提问或者消息。当用户对上述提问或消息进行回答而发出语音时,在步骤S6中,信号处理部31通过对所输入的语音信号实施傅立叶转换从而提取语音信号的频率成分,并生成表示语音信号的频率成分的分布状态的特征模式。此外,信号处理部31对语音检测信号进行激活。
当语音检测信号被激活时,在步骤S7中,只要根据所输入的语音信号的至少一部分而生成的特征模式包含在标准模式的扩展的范围内,则一致检测部37检测为两者一致,并输出在成为转换候选的多个单词或者语句内确定出被检测为一致的单词或者语句的语音识别结果。
可以以如下方式对半导体集成电路装置30B进行控制,即,当从语音检测信号被激活起的预定的期间内未得到表现出特征模式与标准模式之间的一致的语音识别结果的情况下,主机CPU61将等级较低的新的识别精度参数与变更指令一起发送至半导体集成电路装置30B,并再次实施一致检测。由此,当在预定的期间内未得到表现出特征模式与标准模式之间的一致的语音识别结果的情况下,可以放宽语音识别的识别精度的严密性而再次实施一致检测。
或者,主机CPU61可以将表示“请重复”等的消息的响应数据发送至半导体集成电路装置30B,也可以将表示换种说法以便容易理解的提问的响应数据发送至半导体集成电路装置30B。语音信号合成部38根据从主机CPU61供给的响应数据来合成语音信号,并从语音输出部50发出新的消息或者提问。
当从语音检测信号被激活起的预定的期间内得到了表现出特征模式与标准模式之间的一致的语音识别结果时,在步骤S8中,主机CPU61对一系列的语音识别动作是否结束进行判断。如果一系列的语音识别动作结束,则处理结束。另一方面,如果一系列的语音识别动作未结束,则处理转移至步骤S9。
在步骤S9中,主机CPU61根据从半导体集成电路装置30B输出的语音识别结果而从多个响应内容之中选择一个响应内容,并将表示所选择的响应内容的响应数据、和表示作为针对于所选的响应内容的回答而成为转换候选的多个单词或者语句的文本数据、以及根据这些单词或语句而选择的识别精度参数,与设定指令一起发送至半导体集成电路装置30B。并且以此方式反复实施步骤S2以后的处理。
根据本发明的一个实施方式,通过使用基于语音识别脚本的转换列表,从而能够将与所输入的语音信号的特征模式进行比较的标准模式缩小至如下的标准模式,即,与由在转换列表中所设定的文本数据所表示的各个单词或者语句的至少一部分相对应的标准模式。在此,语音识别脚本是指,创造出如下的状况而实施语音识别,所述状况为,可预测处用户针对于某个提问或者消息的的回答为几个单词或者语句中的一个的状况。
此时,语音识别中的识别精度的严密性或者模糊性能够通过从主机CPU61向半导体集成电路装置30B发送指令以及识别精度参数的方式,从而沿着语音识别脚本而自由地进行设定。其结果为,能够使语音识别的识别精度较为精密从而防止误识别、或者放宽语音识别的识别精度从而来提高识别率。
接下来,对本发明的一个实施方式所涉及的语音识别装置中的语音识别动作的具体例进行说明。在此,对图1所示的语音识别装置被应用于食堂中的饭票的自动贩卖机的情况进行说明。
在自动贩卖机上显示有包括多个食品名的食品菜单。在食品菜单中显示有“荞麦面”、“乌冬面”、“咖喱饭”、“猪排饭”等的文字。在这种情况下,可以预测用户发出的最初的语句为在食品菜单中所显示的“荞麦面”、“乌冬面”、“咖喱饭”、“猪排饭”等中的任意一个。
因此,主机CPU61在自动贩卖机的电源接通时或者重新启动后,将表示食品菜单中所显示的多个食品名的文本数据,与识别精度参数以及设定指令一起发送至半导体集成电路装置30B。此时,主机CPU61可以以如下方式设定识别精度参数,即,在食品菜单中所显示的食品名的数量多于预定的数量的情况下使识别精度较为严密,而在食品菜单中所显示的食品名的数量少于预定的数量的情况下放宽识别精度。
半导体集成电路装置30B的转换候选设定部33按照所接收的设定指令,而在转换列表中设定所接收的文本数据,并且在识别精度调节部36中设定所接收的识别精度参数。
以这种方式,制成了图5所示的转换列表A。虽然在图5中,图示了与食品名相对应的编号、食品名的日语表述、食品名所包含的音素的罗马字表述,但只要在转换列表中至少包含有能够确定食品名所包含的音素的罗马字表述或者假名表述即可。
当转换列表A被制成时,标准模式提取部35针对于转换列表A中所包含的食品名“荞麦面”、“乌冬面”、“咖喱饭”、“猪排饭”等的开头的音节“そ”、“う”、“カ”、“カ”等所包含的音素“s和o”、“u”、“k和a”、“k和a”等的各个因素,从语音识别数据库中提取相对应的标准模式。此外,识别精度调节部36按照识别精度参数,而对从语音识别数据库中提取的标准模式的扩展的范围进行调节。
从外,主机CPU61将表示“选择哪一个食品?请说出食品名。”的提问或者消息的通讯数据发送至半导体集成电路装置30B。半导体集成电路装置30B的语音信号合成部38根据该通讯数据来合成语音信号并向D/A转换器40输出,D/A转换器40将数字的语音信号转换为模拟的语音信号,并将模拟的语音信号输出至语音输出部50。由此,从语音输出部50发出“选择哪一个食品?请说出食品名。”的提问或者消息。
对于从语音输出部50发出的提问或者消息,当用户观察所显示的食品菜单而说出“猪排饭。”时,信号处理部31对于音素“k、a、t、u、d、o、N…”的各个音素,生成表示频率成分的分布状态的特征模式。
一致检测部37通过对由信号处理部31生成的开头的音节的第一个音素“k”的特征模式、和从语音识别数据库中提取的开头的音节的第一个音素“s”、“u”、“k”、“k”等的标准模式进行比较,从而检测出与音素“k”一致。
在被检测为一致的音素表示为辅音的情况下,一致检测部37进一步对开头的音节的第二个音素进行比较。一致检测部37通过对由信号处理部31生成的开头的音节的第二个音素“a”的特征模式、和从语音识别数据库中提取的开头的音节的第二个音素“o”、“a”、“a”等的标准模式进行比较,从而检测出与音素“a”一致。
由此,检测出与音节“カ”一致。如果被检测为一致的食品名为一个,则就此获得语音识别结果。但是,由于在转换列表中含有食品名“咖喱饭”和食品名“猪排饭”,因此无法识别出与哪一个相符。在这种情况下,一致检测部37将扩大应当被检测一致性的音节的范围。
即,一致检测部37将如下的信号发送至标准模式提取部35,所述信号为,委托对与转换列表中所包含的上述食品名的第二个音节相对应的标准模式进行提取的信号。由此,标准模式提取部35针对于转换列表中所包含的食品名“咖喱饭”以及“猪排饭”的第二个音节“レ”以及“ツ”所含的音素“r和e”以及“t和u”的各个音素,从语音识别数据库中提取表示频率成分的分布状态的标准模式。此外,识别精度调节部36按照识别精度参数,而对从语音识别数据库中提取的标准模式的扩展的范围进行调节。
一致检测部37通过对由信号处理部31生成的第二个音节的第一个音素“t”的特征模式、和从语音识别数据库中提取的第二个音节的第一个音素“r”以及“t”的标准模式进行比较,从而检测出与音素“t”一致。
并且,一致检测部37通过对由信号处理部31生成的第二个音节的第二个音素“u”的特征模式、和从语音识别数据库中提取的第二个音节的第二个音素“e”以及“u”的标准模式进行比较,从而检测出与音素“u”一致。
由此,检测出与音节“ツ”一致。在还存在具有开头的音节“カ”以及第二个音节“ツ”的其他食品名的情况下,一致检测部37只需进一步扩大应当被检测一致性的音节的范围即可。一致检测部37将确定出具有被检测为一致的开头的音节“カ”以及第二个音节“ツ”的食品名“猪排饭”的语音识别结果输出至主机CPU61。
作为用于确定食品名“猪排饭”的信息,有图3所示的编号、食品名的日语表述“猪排饭”或者其一部分“猪排”、食品名中所包含的音素的罗马字表述”katudoN”或者其一部分“katu”等。由此,主机CPU61能够识别出与所输入的语音信号的至少一部分相对应的食品名“猪排饭”。
当以这种方式结束第一次的语音识别动作时,主机CPU61将开始实施第二次的语音识别动作。主机CPU61按照所接收到的语音识别结果,从由被存储于存储部62的响应数据所表示的多个响应内容之中选择一个适当的响应内容,并将表示所选择的响应内容的响应数据、以及表示作为对于所选泽的响应内容的回答的多个转换候选的文本数据,与识别精度参数和设定指令一起发送至半导体集成电路装置30B。
半导体集成电路装置30B的转换候选设定部33按照所接收的设定指令,在从转换列表中删除了当前的全部文本数据之后,在转换列表中设定所接收的文本数据,并且在识别精度调节部36中设定所接收的识别精度参数。
例如,主机CPU61将表示“几个?”的提问的响应数据供给至语音信号合成部38。在这种情况下,可以预测用户针对于该提问而发出的最初的语句为“一个”、“两个”、“三个”等的多个回答中的某一个。因此,主机CPU61将表示“一个”、“两个”、“三个”等的多个回答的文本数据,与识别精度参数及设定指令一起发送至半导体集成电路装置30B。
以这种方式,制成了图6所示的转换列表B。当转换列表B被制成时,标准模式提取部35针对于由转换列表B中所包含的文本数据表示的单词“一个”、“两个”、“三个”等的开头的音节“ひ”、“ふ”、“み”等所包含的音素“h和i”、“h和u”、“m和i”等的各个音素,从语音识别数据库中提取表示频率成分的分布状态的标准模式。并且,识别精度调节部36按照识别精度参数,而对从语音识别数据库中提取的标准模式的扩展的范围进行调节。
语音信号合成部38根据从主机CPU61供给的响应数据来合成语音信号并向D/A转换器40输出,D/A转换器40将数字的语音信号转换为模拟的语音信号,并将模拟的语音信号输出至语音输出部50。由此,从语音输出部50对用户发出“几个?”的提问。
对于从语音输出部50发出的提问,当用户说出“一个。”时,信号处理部31针对于音素“h、i、t、o、t、u…”的各个音素,而生成表示频率成分的分布状态的特征模式。
一致检测部37通过对由信号处理部31生成的开头的音节的第一个音素“h”的特征模式、和从语音识别数据库中提取的开头的音节的第一个音素“h”、“h”、“m”等的标准模式进行比较,从而检测出与音素“h”一致。
在被检测为一致的音素表示为辅音的情况下,一致检测部37通过进一步对由信号处理部31生成的开头的音节的第二个音素“i”的特征模式、和从语音识别数据库中提取的开头的音节的第二个音素“i”、“u”、“i”等的标准模式进行比较,从而检测出与音素“i”一致。
由此,检测出与音节“ひ”一致。一致检测部37将确定出在开头具有被检测为一致的音节“ひ”的单词“一个”的语音识别结果输出至主机CPU61。由此,主机CPU61能够识别出与所输入的语音信号的至少一部分相对应的单词“一个”。
因此,主机CPU61将表示“请投入○○○元。”的消息的响应数据供给至语音信号合成部38。语音信号合成部38根据从主机CPU61供给的响应数据来合成语音信号并向D/A转换器40输出,D/A转换器40将数字的语音信号转换为模拟的语音信号,并将模拟的语音信号输出至语音输出部50。由此,从语音输出部50对用户发出“请投入○○○元。”的消息。
虽然在以上的实施方式中,对将本发明应用于自动贩卖机中的具体例进行了说明,但本发明并不限定于该实施方式,而能够应用于一般的电子设备,并且对于在该技术领域具有通常知识的人员,能够在本发明的技术的思想内进行多种改变。
符号说明
10…语音输入部;20…A/D转换器;30A、30B…半导体集成电路装置;31…信号处理部;32…语音识别数据库存储部;33…转换候选设定部;34…转换列表存储部;35…标准模式提取部;36…识别精度调节部;37…一致检测部;38…语音信号合成部;39…语音合成数据库存储部;40…D/A转换器;50…语音输出部;60…控制部;61…主机CPU;62…存储部。

Claims (14)

1.一种半导体集成电路装置,具备:
语音识别数据库存储部,其中存储有语音识别数据库,所述语音识别数据库中包括,表示在预定的语言中所使用的多个音素的频率成分的分布状态的标准模式;
转换候选设定部,其将表示单词或者语句的文本数据与指令一起接收,并按照所述指令而在转换列表中设定文本数据;
转换列表存储部,其中存储有所述转换列表;
标准模式提取部,其从所述语音识别数据库中提取与由在所述转换列表中所设定的文本数据所表示的所述单词或者语句的至少一部分相对应的所述标准模式;
信号处理部,其通过对所输入的语音信号实施傅立叶转换从而提取所述语音信号的频率成分,并生成表示所述语音信号的频率成分的分布状态的特征模式;
一致检测部,其对根据所述语音信号的至少一部分而生成的所述特征模式、和从所述语音识别数据库中提取的所述标准模式之间的一致性进行检测,并输出语音识别结果,所述语音识别结果为,在成为转换候选的多个单词或者语句内确定出被检测为一致的单词或者语句的语音识别结果。
2.如权利要求1所述的半导体集成电路装置,其中,
还具备语音信号合成部,所述语音信号合成部接收表示针对于所述语音识别结果的响应内容的响应数据,并根据所述响应数据来合成输出语音信号。
3.如权利要求1或2所述的半导体集成电路装置,其中,
所述信号处理部在所述语音信号的电平超过了预定的值时将语音检测信号激活。
4.一种语音识别装置,具备:
权利要求1所述的半导体集成电路装置;
控制部,其将表示所述单词或者语句的文本数据与指令一起发送至所述半导体集成电路装置。
5.一种语音识别装置,具备:
权利要求2所述的半导体集成电路装置;
控制部,其接收所述语音识别结果,并将所述响应数据、以及所述表示单词或者语句的文本数据,与所述指令一起发送至所述半导体集成电路装置。
6.一种语音识别装置,具备:
权利要求3所述的半导体集成电路装置;
控制部,其以如下的方式对所述半导体集成电路装置进行控制,即,在从所述语音检测信号被激活起的预定的期间内未得到表现出所述特征模式与所述标准模式之间的一致的语音识别结果的情况下,将应当向所述转换列中表追加的文本数据与所述指令一起发送至所述半导体集成电路装置,并实施一致检测。
7.一种语音识别方法,包括如下步骤:
步骤(a),将表示单词或者语句的文本数据与指令一起接收,并按照所述指令而在转换列表中设定文本数据;
步骤(b),从包括表示在预定的语言中所使用的多个音素的频率成分的分布状态的标准模式的语音识别数据库中,提取与由在所述转换列表中所设定的文本数据所表示的所述单词或者语句中的至少一部分相对应的所述标准模式;
步骤(c),通过对所输入的语音信号实施傅立叶转换从而提取所述语音信号的频率成分,并生成表示所述语音信号的频率成分的分布状态的特征模式;
步骤(d),对根据所述语音信号的至少一部分而生成的所述特征模式、和从所述语音识别数据库中提取的所述标准模式之间的一致性进行检测,并输出语音识别结果,所述语音识别结果为,在成为转换候选的多个单词或者语句内确定出被检测为一致的单词或者语句的语音识别结果。
8.一种半导体集成电路装置,具备:
语音识别数据库存储部,其中存储有语音识别数据库,所述语音识别数据库包括,表示在预定的语言中所使用的多个音素的频率成分的分布状态的标准模式;
转换候选设定部,其将表示成为转换候选的单词或者语句的文本数据、以及表示在对成为所述转换候选的单词或者语句进行识别时所应用的识别精度的严密性的识别精度参数,与指令一起接受,并按照所述指令而在转换列表中设定文本数据;
转换列表存储部,其中存储有所述转换列表;
标准模式提取部,其从所述语音识别数据库中提取与由在所述转换列表中所设定的文本数据所表示的各个单词或者语句的至少一部分相对应的所述标准模式;
识别精度调节部,其按照所述识别精度参数,而对从所述语音识别数据库中提取的所述标准模式的扩展的范围进行调节;
信号处理部,其通过对所输入的语音信号实施傅立叶转换从而提取所述语音信号的频率成分,并生成表示所述语音信号的频率成分的分布状态的特征模式;
一致检测部,如果根据所述语音信号的至少一部分而生成的所述特征模式包含在所述标准模式的扩展的范围内,则所述一致检测部检测为两者一致,并输出语音识别结果,所述语音识别结果为,在成为转换候选的单词或者语句内确定出被检测为一致的单词或者语句的语音识别结果。
9.如权利要求8所述的半导体集成电路装置,其中,
还具备语音信号合成部,所述语音信号合成部接收表示针对于所述语音识别结果的响应内容的响应数据,并根据所述响应数据来合成输出语音信号。
10.如权利要求8或9所述的半导体集成电路装置,其中,
所述信号处理部在所述语音信号的电平超过了预定的值时将语音检测信号激活。
11.一种语音识别装置,具备:
权利要求8所述的半导体集成电路装置;
控制部,其将表示成为所述转换候选的单词或者语句的文本数据、以及所述识别精度参数,与所述指令一起发送至所述半导体集成电路装置。
12.一种语音识别装置,具备:
权利要求9所述的半导体集成电路装置;
控制部,其根据从所述半导体集成电路装置输出的所述语音识别结果而从多个响应内容中选择所述响应内容,并将表示所选择的所述响应内容的所述响应数据、表示作为针对于所述响应内容的回答而成为所述转换候选的单词或者语句的文本数据、以及根据成为所述转换候选的单词或者语句而选择的所述识别精度参数,与所述指令一起发送至所述半导体集成电路装置。
13.一种语音识别装置,具备:
权利要求10所述的半导体集成电路装置;
控制部,其以如下的方式对所述半导体集成电路装置进行控制,即,在从所述语音检测信号被激活起的预定的期间内未得到表现出所述特征模式与所述标准模式之间的一致的所述语音识别结果的情况下,将新的所述识别精度参数与新的所述指令一起发送至所述半导体集成电路装置,并实施一致检测。
14.一种语音识别方法,其特征在于,包括如下步骤:
步骤(a),将表示成为转换候选的单词或者语句的文本数据、以及表示在对成为所述转换候选的单词或者语句进行识别时所应用的识别精度的严密性的识别精度参数,与指令一起接收,并按照所述指令而在转换列表中设定文本数据;
步骤(b),从包括表示在预定的语言中所使用的多个音素的频率成分的分布状态的标准模式的语音识别数据库中,提取与由在所述转换列表中所设定的文本数据所表示的各个单词或者语句中的至少一部分相对应的所述标准模式;
步骤(c),按照所述识别精度参数,而对从所述语音识别数据库中提取的所述标准模式的扩展的范围进行调节;
步骤(d),通过对所输入的语音信号实施傅立叶转换从而提取所述语音信号的频率成分,并生成表示所述语音信号的频率成分的分布状态的特征模式;
步骤(e),如果根据所述语音信号的至少一部分而生成的所述特征模式包含在所述标准模式的扩展的范围内,则检测为两者一致,并输出语音识别结果,所述语音识别结果为,在成为所述转换候选的单词或者语句内确定出被检测为一致的单词或者语句的语音识别结果。
CN201410065495.6A 2013-02-25 2014-02-25 语音识别装置及方法、以及半导体集成电路装置 Active CN104008752B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2013034257A JP6221253B2 (ja) 2013-02-25 2013-02-25 音声認識装置及び方法、並びに、半導体集積回路装置
JP2013-034257 2013-02-25
JP2013-042664 2013-03-05
JP2013042664A JP6221267B2 (ja) 2013-03-05 2013-03-05 音声認識装置及び方法、並びに、半導体集積回路装置

Publications (2)

Publication Number Publication Date
CN104008752A CN104008752A (zh) 2014-08-27
CN104008752B true CN104008752B (zh) 2018-08-28

Family

ID=51369379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410065495.6A Active CN104008752B (zh) 2013-02-25 2014-02-25 语音识别装置及方法、以及半导体集成电路装置

Country Status (2)

Country Link
US (1) US9886947B2 (zh)
CN (1) CN104008752B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10134424B2 (en) * 2015-06-25 2018-11-20 VersaMe, Inc. Wearable word counter
US10789939B2 (en) 2015-06-25 2020-09-29 The University Of Chicago Wearable word counter
US10959648B2 (en) 2015-06-25 2021-03-30 The University Of Chicago Wearable word counter
US20170076626A1 (en) * 2015-09-14 2017-03-16 Seashells Education Software, Inc. System and Method for Dynamic Response to User Interaction
CN105679318A (zh) * 2015-12-23 2016-06-15 珠海格力电器股份有限公司 一种基于语音识别的显示方法、装置、显示系统和空调
CN111384051B (zh) * 2016-03-07 2022-09-27 杭州海存信息技术有限公司 兼具语音识别功能的存储器
CN106781013A (zh) * 2017-01-18 2017-05-31 广东美基沃得科技有限公司 自动售卖设备及自动售卖方法
CN107274891A (zh) * 2017-05-23 2017-10-20 武汉秀宝软件有限公司 一种基于语音识别引擎的ar界面交互方法及系统
DE102017216571B4 (de) 2017-09-19 2022-10-06 Volkswagen Aktiengesellschaft Kraftfahrzeug
CN109378005A (zh) * 2017-11-30 2019-02-22 金超 一种无人售货便利店多语音分辨系统
WO2020103008A1 (zh) * 2018-11-21 2020-05-28 深圳市欢太科技有限公司 音频检测方法、计算机可读存储介质和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1543640A (zh) * 2001-06-14 2004-11-03 �����ɷ� 在分布式语音识别系统中传输语音活动的方法和设备
CN101185115A (zh) * 2005-05-27 2008-05-21 松下电器产业株式会社 语音编辑装置、语音编辑方法和语音编辑程序
CN101625864A (zh) * 2008-07-10 2010-01-13 富士通株式会社 声音识别装置和声音识别方法
CN102687197A (zh) * 2010-01-22 2012-09-19 三菱电机株式会社 识别词典制作装置、声音识别装置及声音合成装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02106800A (ja) 1988-10-17 1990-04-18 Matsushita Refrig Co Ltd 音声認識システム
JPH03231297A (ja) 1990-02-06 1991-10-15 Matsushita Refrig Co Ltd 音声認識システム
JP3006496B2 (ja) 1996-03-21 2000-02-07 日本電気株式会社 音声認識装置
JP2001154685A (ja) 1999-11-30 2001-06-08 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体
JP2002182687A (ja) 2000-12-15 2002-06-26 Alpine Electronics Inc 車載音声認識用騒音低減装置のデータ配信システム、車載音声認識用騒音低減装置、及びサーバ
US20050004788A1 (en) * 2003-07-03 2005-01-06 Lee Hang Shun Raymond Multi-level confidence measures for task modeling and its application to task-oriented multi-modal dialog management
JP2005085433A (ja) 2003-09-11 2005-03-31 Xanavi Informatics Corp 音声認識による再生装置および再生方法
JP2008015209A (ja) 2006-07-05 2008-01-24 Kddi Corp 音声認識装置およびその認識辞書更新方法、プログラムならびに記憶媒体
JP2008064885A (ja) 2006-09-05 2008-03-21 Honda Motor Co Ltd 音声認識装置、音声認識方法、及び音声認識プログラム
JP4471128B2 (ja) 2006-11-22 2010-06-02 セイコーエプソン株式会社 半導体集積回路装置、電子機器
US8056070B2 (en) * 2007-01-10 2011-11-08 Goller Michael D System and method for modifying and updating a speech recognition program
JP2011039202A (ja) 2009-08-07 2011-02-24 Aisin Aw Co Ltd 車載情報処理装置
US8775177B1 (en) * 2012-03-08 2014-07-08 Google Inc. Speech recognition process
US9159319B1 (en) * 2012-12-03 2015-10-13 Amazon Technologies, Inc. Keyword spotting with competitor models

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1543640A (zh) * 2001-06-14 2004-11-03 �����ɷ� 在分布式语音识别系统中传输语音活动的方法和设备
CN101185115A (zh) * 2005-05-27 2008-05-21 松下电器产业株式会社 语音编辑装置、语音编辑方法和语音编辑程序
CN101625864A (zh) * 2008-07-10 2010-01-13 富士通株式会社 声音识别装置和声音识别方法
CN102687197A (zh) * 2010-01-22 2012-09-19 三菱电机株式会社 识别词典制作装置、声音识别装置及声音合成装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《信頼度基準による解探索打ち切りに基づ》;小島弘等;《電子情報通信学会技術研究報告:信学技報》;20090131;第108卷(第422期);第13-18页 *

Also Published As

Publication number Publication date
US20140244255A1 (en) 2014-08-28
CN104008752A (zh) 2014-08-27
US9886947B2 (en) 2018-02-06

Similar Documents

Publication Publication Date Title
CN104008752B (zh) 语音识别装置及方法、以及半导体集成电路装置
Fagherazzi et al. Voice for health: the use of vocal biomarkers from research to clinical practice
Taylor Analysis and synthesis of intonation using the tilt model
US6839667B2 (en) Method of speech recognition by presenting N-best word candidates
Zue et al. An expert spectrogram reader: a knowledge-based approach to speech recognition
Pao et al. Mandarin emotional speech recognition based on SVM and NN
US9190060B2 (en) Speech recognition device and method, and semiconductor integrated circuit device
JP5824829B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
CN110782875B (zh) 一种基于人工智能的语音韵律处理方法及装置
CN107086040A (zh) 语音识别能力测试方法和装置
CN105210147B (zh) 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
US9390709B2 (en) Voice recognition device and method, and semiconductor integrated circuit device
CN111370024B (zh) 一种音频调整方法、设备及计算机可读存储介质
CN112908308B (zh) 一种音频处理方法、装置、设备及介质
Jacobi On variation and change in diphthongs and long vowels of spoken Dutch
CN110111778A (zh) 一种语音处理方法、装置、存储介质及电子设备
CN106782503A (zh) 基于发音过程中生理信息的自动语音识别方法
MacIntyre et al. Pushing the envelope: Evaluating speech rhythm with different envelope extraction techniques
CN108364655A (zh) 语音处理方法、介质、装置和计算设备
JP2015055653A (ja) 音声認識装置及び方法、並びに、電子機器
Lee et al. Acoustic voice variation in spontaneous speech
CN107251137B (zh) 利用语音改善至少一种语义单元的集合的方法、装置及计算机可读记录介质
CN111091810A (zh) 基于语音信息的vr游戏人物表情控制方法及存储介质
JP2010060846A (ja) 合成音声評価システム及び合成音声評価方法
Whitfield Exploration of metrics for quantifying formant space: Implications for clinical assessment of Parkinson disease

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240111

Address after: 15 Adindere Street, Ulanjer, Hungary

Patentee after: Crystal Leap LLC

Address before: Tokyo

Patentee before: Seiko Epson Corp.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240603

Address after: No.8, Lixing 6th Road, Xinzhu City, Xinzhu Science Industrial Park, Taiwan, China

Patentee after: Taiwan Semiconductor Manufacturing Co.,Ltd.

Country or region after: TaiWan, China

Address before: 15 Adindere Street, Ulanjer, Hungary

Patentee before: Crystal Leap LLC

Country or region before: Hungary