CN102246226A - 声音识别装置 - Google Patents

声音识别装置 Download PDF

Info

Publication number
CN102246226A
CN102246226A CN2009801503310A CN200980150331A CN102246226A CN 102246226 A CN102246226 A CN 102246226A CN 2009801503310 A CN2009801503310 A CN 2009801503310A CN 200980150331 A CN200980150331 A CN 200980150331A CN 102246226 A CN102246226 A CN 102246226A
Authority
CN
China
Prior art keywords
statement
voice recognition
identifying object
candidate
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2009801503310A
Other languages
English (en)
Other versions
CN102246226B (zh
Inventor
海老原充
石井纯
坂下博纪
野木和行
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of CN102246226A publication Critical patent/CN102246226A/zh
Application granted granted Critical
Publication of CN102246226B publication Critical patent/CN102246226B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明的目的在于提供一种声音识别装置,包括语句选择部(22),该语句选择部(22)从识别对象语句的候补中选择声音单元数为规定值以下的语句作为识别对象语句。

Description

声音识别装置
技术领域
本发明涉及声音识别装置。
背景技术
作为现有的声音识别装置,将新词汇与已登录词汇混淆的可能性进行数值化,并对该数值进行评价,来判定是否登录新词汇(例如,参照专利文献1)。另外,在专利文献2中揭示有以下声音识别装置:即,将声音识别用的存储装置设为分级结构,逐渐缩小包括范围,从而能够一边预测下一发声内容、一边进行识别。
专利文献1:日本专利特开2002-297181号公报
专利文献2:日本专利特开2004-325704号公报
发明内容
现有的声音识别装置使用作为识别对象的语句的文本标记,来生成声音识别字典。此处,在作为识别对象的语句数量较多的情况下或在语句较长的情况下,声音识别字典尺寸变大。例如,在利用用于导航系统或便携式电话等设备的嵌入式软件来实现声音识别装置的情况下,由于该设备的存储器存在限制,因此,若声音识别词典尺寸超过存储器可使用的容量,则存在声音识别装置不能正常工作的问题。
与此不同的是,专利文献1是基于新词汇与已登录词汇混淆的可能性的评价值、来判定是否登录新词汇的声音识别装置,因而,未考虑利用嵌入式软件来实现声音识别装置的情况,并且未考虑存储器的容量有限制的情况,因此,不能解决上述问题。
另外,专利文献2是考虑了因词汇增加而导致的识别性能的降低、来生成声音识别词典的声音识别装置,但是与上述相同,也未考虑存储器的容量有限制的情况,因此,不能解决上述问题。
本发明是为了解决上述问题而完成的,其目的在于提供一种声音识别装置,该声音识别装置能够抑制声音识别词典的词典尺寸的增大。
本发明的声音识别装置包括语句选择部,该语句选择部从识别对象语句的候补中选择声音单元数为规定值以下的语句作为识别对象语句。
根据本发明,由于从识别对象语句的候补中选择声音单元数为规定值以下的语句作为识别对象语句,因此,具有如下效果:能抑制由该识别对象语句构成的声音识别词典的尺寸的增大,即使在利用用于导航系统或便携式电话等设备的嵌入式软件来实现声音识别装置的情况下,也能够实现在存储器可使用的容量以内的词典尺寸。
附图说明
图1是表示本发明的实施方式1的声音识别装置的结构的框图。
图2是表示实施方式1的声音识别装置的动作流程的流程图。
图3是用于说明识别对象语句候补的去除处理的图。
图4是表示本发明的实施方式2的声音识别装置的结构的框图。
图5是表示实施方式2的声音识别装置的动作流程的流程图。
图6是用于说明实施方式2的词典生成处理部的处理的图。
图7是表示本发明的实施方式3的声音识别装置的结构的框图。
图8是表示实施方式3的声音识别装置的动作流程的流程图。
图9是用于说明识别对象语句候补的语句裁减处理的图。
图10是表示本发明的实施方式4的声音识别装置的结构的框图。
图11是表示实施方式4的声音识别装置的动作流程的流程图。
图12是表示本发明的实施方式5的声音识别装置的结构的框图。
图13是表示实施方式5的声音识别装置的动作流程的流程图。
图14是表示去除的词汇的通知例的图。
具体实施方式
下面,为了更详细地说明本发明,根据附图对用于实施本发明的方式进行说明。
实施方式1.
图1是表示本发明的实施方式1的声音识别装置的结构的框图。在图1中,实施方式1的声音识别装置1包括词典生成处理部2及声音识别处理部3。词典生成处理部2是用于生成由预先决定的声音单元(acoustic unit)数以下的语句构成的声音识别词典的单元,包括识别对象语句候补的存储部21、语句选择部22、识别对象语句的存储部23、声音识别词典生成部24、及声音识别词典的存储部25。
存放在存储部21中的识别对象语句候补包括要由声音识别装置1识别的文本的候补和表示该文本的发音内容的声音单元的组合。此处,所谓的识别对象语句是指声音单元为规定数量以下的语句。另外,所谓的声音单元是指音素或音节等较短的声音单位。该声音单元数越多,则声音识别词典的尺寸增加。因此,在实施方式1的声音识别装置1中,仅以预先决定的声音单元数以下的语句来生成声音识别字典,从而防止词典尺寸的增大。
语句选择部22是以下单元:即,将声音单元即音素作为基准,从识别对象语句候补中去除超过对一个识别对象语句所预先设定的音素数的定义值的识别对象语句候补,来选择上述定义值以内的音素数的识别对象语句。声音识别词典生成部24是使用从存储部23中读取出的识别对象语句、来生成声音识别词典的单元。
声音识别处理部3包括声音识别词典的存储部25及声音识别部26。声音识别部26是以下单元:即,参照存放在存储部25中的声音识别词典,对用户所发出的识别对象的声音(以下,称为识别对象声音)执行声音识别处理,来获得识别结果。
此外,通过将遵循本发明要点的词典生成和声音识别用程序读入计算机,并使该计算机的CPU加以执行,从而能在该计算机上将语句选择部22、声音识别词典生成部24、及声音识别部26作为硬件和软件协同工作的具体单元来实现。另外,识别对象语句候选的存储部21、识别对象语句的存储部23、及声音识别词典的存储部25能够构建于上述计算机所包括的存储装置(例如,硬件装置或外部存储媒体等)的存储区域上。
接下来,对动作进行说明。
图2是表示实施方式1的声音识别装置的动作流程的流程图,图2中由附加了标号A的虚线围住的处理步骤表示词典生成处理部2的处理,由附加了标号B的虚线围住的处理步骤表示声音识别处理部3的处理。
首先,语句选择部22从存储部21中读出用于生成声音识别词典的识别对象语句候补来进行准备(步骤ST1)。接着,语句选择部22将对语句编号N进行计数的计数器(在图1中未图示)的计数值初始化为0(N=0),上述语句编号N是对各识别对象语句候补按照处理顺序来附加的连续编号(步骤ST2)。
语句选择部22将上述计数器的计数值加上1(步骤ST3),对语句编号N是否是从存储部21中读出的识别对象语句候补数以内的数进行判定(步骤ST4)。此处,若语句编号N是识别对象语句候补数以内的数(步骤ST4:是),则语句选择部22对与当前语句编号N相对应的识别对象语句候补的声音单元的数量是否在定义值以内进行判定(步骤ST5)。若与语句编号N相对应的识别对象语句候补的声音单元的数量是在定义值以内(步骤ST5:是),则语句选择部22将该文件编号N的识别对象语句候补作为识别对象语句存放到存储部23(步骤ST6)。
另一方面,若与语句编号N相对应的识别对象语句候补的声音单元的数量不是在定义值以内(步骤ST5:否),则语句选择部22从识别对象语句候补中去除该语句编号N的语句(步骤ST8)。接着,若步骤ST6或步骤ST8的处理结束,则语句选择部22返回至步骤ST3,将对语句编号N进行计数的计数器的计数值加上1,对与下一语句编号相对应的识别对象语句候补重复从步骤ST4到步骤ST8的处理。
此处,对步骤ST8的去除处理进行说明。
图3是用于说明识别对象语句候补的去除处理的图,示出了将音素设为基准作为声音单元、从识别对象语句候补中去除音素数超过20的语句的情况。如图3所示,对于语句编号N=1即[かながわけんかまくらし]的识别对象语句候补,音素串为[kanagawakeN kamakurasi](21音素),由于超过了20音素,因此要去除。同样地,语句编号N=6、8的语句的音素数超过了20,因此要去除,而语句编号N=2~5、7的语句作为识别对象语句而被存放到存储部23。
构成识别对象语句的音素分别与声响模型(acoustic model)相对应,因此对声音识别词典的尺寸有较大影响。此处,在该实施方式1中,通过去除音素数超过定义值的候补语句,从而能够防止词典尺寸的增加。此外,在图3的例子中,是逐一对构成语句的音素进行计数来求出音素数的,但也可利用摩尔数(molar number)来计算音素数。
返回至图2的说明,若语句编号N是超过识别对象语句候补数的数(语句编号N>识别对象语句候补数)(步骤ST4:否),则声音识别词典生成部24基于至此已经存放到存储部23中的识别对象语句来生成声音识别词典(步骤ST7)。将所生成的声音识别词典存放到存储部25。
声音识别处理部3的声音识别部26输入用户所发出的识别对象声音(步骤ST9),对于该识别对象声音,参照存放在存储部25中的声音识别词典来进行声音识别处理,输出识别结果(步骤ST10)。
由上所述,根据本实施方式1,由于包括从识别对象语句的候补中选择声音单元数为规定值以下的语句作为识别对象语句的语句选择部22,因此,能抑制声音识别词典的词典尺寸的增大,即使在利用用于导航系统或便携式电话等设备的嵌入式软件来实现声音识别装置的情况下,也能实现在存储器可使用的容量以内的词典尺寸。由此,能够提供适于利用嵌入式软件来构筑的情况的声音识别装置。
实施方式2.
图4是表示本发明的实施方式2的声音识别装置的结构的框图。在图4中,实施方式2的声音识别装置1A具有与上述实施方式1的图1基本相同的结构,但是其不同点在于,包括取决于所有识别对象语句候补的总声音单元数的语句选择部22a,以取代实施方式1的取决于各个识别对象语句候补的声音单元数的语句选择部22。
语句选择部22a选择识别对象语句并存放到存储部23,以使得所有识别对象语句候补的声音单元数的总和在定义值以内。此外,对于除声音识别处理部3、及词典生成处理部2的语句选择部22a以外的结构,由于都与上述实施方式1相同,因此省略说明。
接下来,对动作进行说明。
图5是表示实施方式2的声音识别装置的动作流程的流程图,图5中由附加了标号A的虚线围住的处理步骤表示词典生成处理部2的处理,由附加了标号B的虚线围住的处理步骤表示声音识别处理部3的处理。
首先,语句选择部22a从存储部21中读出用于生成声音识别词典的识别对象语句候补来进行准备(步骤ST1)。接着,语句选择部22a对各识别对象语句候补按照声音单元数从小到大的顺序来进行排序(步骤ST1-1)。接着,语句选择部22a将对语句编号N进行计数的计数器(在图4中未图示)的计数值初始化为0(N=0),并将对所有的识别对象语句候补的总声音单元数进行计数的计数器(在图4中未图示)的计数值初始化为0,上述语句编号N是对各识别对象语句候补按照处理顺序所附加的连续编号(步骤ST2a)。
语句选择部22a将对语句编号N进行计数的计数器的计数值加上1(步骤ST3),对语句编号N是否是从存储部21中读出的识别对象语句候补数以内的数进行判定(步骤ST4)。此处,若语句编号N是识别对象语句候补数以内的数(步骤ST4:是),则语句选择部22a将该语句编号N的语句的声音单元数与对总声音单元数进行计数的计数器的计数值相加(步骤ST4-1)。
接着,语句选择部22a对由上述计数器的计数值表示的总声音单元数是否在定义值以内进行判定(步骤ST5a)。若总声音单元数在定义值以内(步骤ST5a:是),则语句选择部22a将该文件编号N的识别对象语句候补作为识别对象语句存放到存储部23(步骤ST6)。
在语句编号N超过从存储部21中读出的识别对象语句候补数的情况下(步骤ST4:否),声音识别词典生成部24基于存放在存储部23中的识别对象语句,来生成声音识别词典,并存放到存储部25(步骤ST7)。另外,若总声音单元数超过定义值(步骤ST5a:否),则语句选择部22a停止对存储部23积累识别对象语句,声音识别词典生成部24基于到该时刻为止存放在存储部23中的识别对象语句,来生成声音识别词典,并存放到存储部25(步骤ST8a)。
若在步骤ST6中选择识别对象语句,则语句选择部22a返回至步骤ST3,将对语句编号N进行计数的计数器的计数值加上1,对与下一语句编号相对应的识别对象语句候补重复从步骤ST4到步骤ST8a的处理。
参照如上所述生成的声音识别词典的声音识别处理(步骤ST9及ST10)与上述实施方式1相同。
图6是用于说明实施方式2的词典生成处理部的处理的图,示出了将音素设为基准作为声音单元、能够选择总音素数不超过100的识别对象语句候补作为识别对象语句的情况。在图6所示的例子中,语句选择部22a从音素数较少的语句开始依次进行选择,在所有语句的总音素数超过100的时刻停止选择。即,从语句编号N=1到语句编号N=6为止的总音素数合计为94音素,若加上下一语句编号N=7的语句的音素数,则大于100音素。因而,将到语句编号N=6的[かながわけんかまくらし]为止的语句选择作为识别对象语句。
在本实施方式2中,选择成为识别对象语句的多个语句,使得该多个语句的声音单元数的总和为定义值以下。识别对象语句的总声音单元数越多,则声音识别词典尺寸增加,因此,若生成预先决定的总声音单元数以下的声音识别词典,则能够防止声音识别词典尺寸的增大。在取决于总声音单元的语句选择部22a中,使用音素作为声音单元并将识别对象语句候补的音素数相加,在中途的合计值(总声音单元数)超过所定义的值的情况下,去除该语句及其后的语句,来获得识别对象语句。
此外,在上述实施方式2中,在步骤ST5a中识别对象语句候补的总声音单元数超过定义值的情况下,也可根据在步骤ST10中执行的声音识别处理的结果,使语句选择部22a选择要去除的识别对象语句候补。
例如,使声音单元数较多的语句再次返回到识别对象语句候补,在下一次的选择处理中作为识别对象语句来用于生成声音识别词典。在参照由此生成的声音识别词典的声音识别结果为良好的情况下,将该情况提示给用户,由用户来判断是否要去除。
另外,在识别对象语句候补的总声音单元数超过定义值的情况下,也可执行后面在实施方式3中阐述的语句的裁减来调整总声音单元数。在这种情况下,语句选择部22a也可提供用于选择成为裁减对象的语句的GUI(Graphical User Interface:图形用户界面),用户据此来选择裁减对象的语句。
由此,根据本实施方式2,在总声音单元数超过定义值的情况下,及在语句编号N>识别对象语句候补数的情况下,基于到该时刻为止累积在存储部23中的识别对象语句来生成声音识别词典。通过采用这样的构成,能够抑制声音识别词典的词典尺寸的增大,能够提供适于利用嵌入式软件来构筑的情况的声音识别装置。
实施方式3.
图7是表示本发明的实施方式3的声音识别装置的结构的框图。在图7中,实施方式3的声音识别装置1B具有与上述实施方式1的图1基本相同的结构,但是其不同点在于,包括取决于识别对象语句候补的声音单元数的语句裁减部27,以取代实施方式1的取决于各个识别对象语句候补的声音单元数的语句选择部22,并包括对裁减后的识别对象语句进行存储的存储部28,以取代实施方式1的识别对象语句的存储部23。
语句裁减部27是以下单元:即,在识别对象语句候补的声音单元数超过定义值的情况下,对于该语句,在包含超过定义值的部分的声音单元的音节的前一个音节处进行裁减,得到裁减后的文本。尽管声音单元数较多的语句或文本会导致声音识别词典尺寸的增加,但是,在本实施方式3中,即使是上述文本,也能识别到声音单元数不超过定义值的部分为止。
存储部28是存放有由语句裁减部27完成了裁减处理后的识别对象语句的存储部。另外,对于除语句裁减部27及存储部28以外的结构,都与上述实施方式1相同,因此省略说明。
接下来,对动作进行说明。
图8是表示实施方式3的声音识别装置的动作流程的流程图,图8中由附加了标号A的虚线围住的处理步骤表示词典生成处理部2的处理,由附加了标号B的虚线围住的处理步骤表示声音识别处理部3的处理。在图8中,从步骤ST1到步骤ST7的处理都与上述实施方式1的图2所示的内容相同,因此,省略说明。
若与语句编号N相对应的识别对象语句候补的声音单元的数量不在定义值以内(步骤ST5:否),则语句裁减部27对该识别对象语句候补的超过上述定义值的音节及之后的音节进行裁减,将裁减后的语句作为语句编号N的识别对象语句存放到存储部28(步骤ST8b)。
若步骤ST6或步骤ST8b的处理结束,则语句裁减部27返回至步骤ST3,将对语句编号N进行计数的计数器的计数值加上1,对与下一语句编号相对应的识别对象语句候补重复从步骤ST4到步骤ST8b的处理。
此处,对步骤ST8b中的语句裁减处理进行说明。
图9是用于说明识别对象语句候补的语句裁减处理的图,示出了将音素设为基准作为声音单元、从识别对象语句候补中去除音素数超过20的音节及之后的音节的情况。在图9的上部所示的例子中,语句编号N=1、6、8的各识别对象语句候补成为裁减对象。在这种情况下,如图9的下部所示,语句裁减部27去除超过20音素的音节及之后的音节。
例如,对于语句编号N=1即[かながわけんかまくらし]的识别对象语句候补,音素串为[kanagawakeN kamakurasi](21音素),超过了20音素。因此,将超过20音素的音节[si]及之后的音节设为去除对象,将[kanagawakeNkamakura](19音素)作为识别对象语句。即,进行裁减,形成到包含超过第20个音素的音素[i]的音节[si]之前为止的文本。对语句编号6、8也进行相同的处理,在进行语句裁减后,仅将音素数为20以下的识别对象语句候补获取作为裁减后的识别对象语句。
此外,不仅能够以音节单位进行裁减,也能够以音素单位进行裁减。例如,在[kanagawakeN kamakurasi]的例子中,超过20音素的音素成为裁减对象,从而[kanagawakeN kamakuras](20音素)成为识别对象语句。即,进行裁减,形成到超过第20个音素的音素[i]之前为止的文本。
返回至图8的说明,若语句编号N是超过识别对象语句候补数的数(语句编号N>识别对象语句候补数)(步骤ST4:否),则声音识别词典生成部24基于到该时刻为止已经积累在存储部28中的裁减后的识别对象语句来生成声音识别词典(步骤ST7)。将所生成的声音识别词典存放到存储部25。
声音识别处理部3的声音识别部26输入用户所发出的识别对象声音(步骤ST9),对于该识别对象声音,参照存放在存储部25中的声音识别词典来进行声音识别处理,输出识别结果(步骤ST10)。
由此,根据本实施方式3,由于包括语句裁减部27,该语句裁减部27在识别对象语句的候补的声音单元数超过规定值的情况下,对超过该规定值的声音单元及之后的声音单元、或包含该声音单元的音节及之后的音节进行裁减以将其去除,并将裁减后的语句作为识别对象语句,因此,能够将到声音单元数不超过定义值的部分为止作为识别对象语句,抑制声音识别词典的词典尺寸的增大,而尽量不减少识别词汇数,能够提供适于利用嵌入式软件来构筑的情况的声音识别装置。
实施方式4.
图10是表示本发明的实施方式4的声音识别装置的结构的框图。在图10中,实施方式4的声音识别装置1C具有与上述实施方式3的图7基本相同的结构,但是不同点在于,包括利用对裁减后的语句后接杂音模型(garbagemodel)(以下,简称为GM)后的识别对象语句、来生成声音识别词典的GM附加声音识别词典生成部29,以替代声音识别词典生成部24,并且,还包括存放杂音模型的存储部30。
GM附加声音识别词典生成部29是对裁减后的识别对象语句后续追加杂音模型来生成声音识别词典的单元。存放在存储部30中的杂音模型是对声音区间进行检测的模型,即使声音中后续有包含无用语或杂音的未知发音,也能对其进行识别。
因此,通过在声音识别词典的识别词汇的前后附加杂音模型。从而即使在该识别词汇的发音前后附加附带语,也能识别出该识别词汇。由此,能够对在语句的中途进行了裁减的识别对象语句的被裁减的后续部分进行识别,能够防止作为识别结果而得到的分数(正确度)降低。另外,对于除GM附加声音识别词典生成部29及存储部30以外的结构,由于都与上述实施方式3相同,因此省略说明。
接下来,对动作进行说明。
图11是表示实施方式4的声音识别装置的动作流程的流程图,图11中由附加了标号A的虚线围住的处理步骤表示词典生成处理部2的处理,由附加了标号B的虚线围住的处理步骤表示声音识别处理部3的处理。在图11中,由于从步骤ST1到步骤ST6、及步骤ST8b的处理都与上述实施方式3的图8所示的内容相同,因此,省略说明。
若语句编号N是超过识别对象语句候补数的数(语句编号N>识别对象语句候补数)(步骤ST4:否),则GM附加声音识别词典生成部29对到该时刻为止已经积累在存储部28中的裁减后的识别对象语句的末尾、附加从存储部30中读出的杂音模型,并基于附加了杂音模型后的识别对象语句,来生成声音识别词典(步骤ST7a)。将所生成的声音识别词典存放到存储部25。
参照如上所述生成的声音识别词典的声音识别处理(步骤ST9及ST10)与上述实施方式1相同。
若对上述实施方式3所示的图9的例子进行说明,则在语句编号N=1、6、8的识别对象语句完成裁减的情况下,语句裁减部27对这些识别对象语句设定表示裁减完成的标记。若GM附加声音识别词典生成部29参照该标记值、确定为裁减完成,则使语句编号N=1、6、8的识别对象语句后接杂音模型,并使用这些识别对象语句来生成声音识别词典。
由此,根据本实施方式4,由于对完成裁减的识别对象语句后接杂音模型,来生成声音识别词典,因此,能够尽可能不减少识别词汇数,且即使是被裁减后的词汇也能够进行识别,因此,能够抑制声音识别词典的词典尺寸的增大,且能够防止作为识别结果而得到的分数降低。由此,能够提供适于利用嵌入式软件来构筑的情况的声音识别装置。
实施方式5.
图12是表示本发明的实施方式5的声音识别装置的结构的框图。在图12中,实施方式5的声音识别装置1D具有与上述实施方式1的图1基本相同的结构,但是其不同点在于,包括识别对象外候补通知部31。识别对象外候补通知部31是向用户通知作为识别对象外而由语句选择部22去除的识别对象语句候补的单元。此外,除了识别对象外候补通知部31以外的结构都与上述实施方式1相同,因此省略说明。
接下来,对动作进行说明。
图13是表示实施方式5的声音识别装置的动作流程的流程图,图13中由附加了标号A的虚线围住的处理步骤表示词典生成处理部2的处理,由附加了标号B的虚线围住的处理步骤表示声音识别处理部3的处理。在图13中,从步骤ST1到步骤ST8的处理都与上述实施方式1的图2所示的内容相同,因此,省略说明。
在步骤ST8中将声音单元数超过定义值的识别对象语句候补去除时,语句选择部22将所去除的识别对象语句候补通知给识别对象外候补通知部31。在由声音识别词典生成部24生成声音识别词典时,识别对象外候补通知部31将上述通知的识别对象语句候补通知给用户(步骤ST8-1)。由此,用户能够识别到识别对象外的语句。
例如,如上述实施方式1所示的图3那样,在使用音素作为声音单元、仅将20音素以下的语句作为识别对象的情况下,对于[かながわけんかまくらし]这样的识别对象语句候补,音素为[kanagawakeN kamakurasi](21音素),由于超过了20音素,因此,成为去除对象。此时,识别对象外候补通知部31将该词汇为识别对象外的情况通知给用户。作为通知方法,如图14所示,有利用成为识别对象外的词汇的目录、和记载了该词汇为识别对象外的情况的屏幕文字(telop)来进行通知的方法。
返回至图13的说明。若步骤ST6或步骤ST8-1的处理结束,则语句选择部22返回至步骤ST3,将对语句编号N进行计数的计数器的计数值加上1,对与下一语句编号相对应的识别对象语句候补重复从步骤ST4到步骤ST8-1的处理。
参照如上所述生成的声音识别词典的声音识别处理(步骤ST9及ST10)与上述实施方式1相同。
由此,根据本实施方式5,由于包括对未被选择作为识别对象语句的候补或成为裁减处理对象的候补进行通知的识别对象外候补通知部31,因此,能够一边事先使用户理解成为识别对象外的词汇,一边抑制声音识别词典的词典尺寸的增大,因此,能够提供便利的、且适于利用嵌入式软件来构筑的情况的声音识别装置。
另外,上述实施方式5的识别对象外候补通知部31也能追加到上述实施方式2~4的结构中。在这种情况下,识别对象外候补通知部31向用户通知由语句选择部22a识别为去除对象的识别对象语句候补,或向用户通知由语句裁减部27a识别为裁减对象的识别对象语句候补。即使采用这样的结构,也能在生成声音识别词典时,使用户事先理解识别对象外或将识别词汇在中途裁减的文本。由此,可提高用户的便利性。
工业上的实用性
本发明的声音识别装置能够抑制由该识别对象语句构成的声音识别词典的尺寸的增大,即使在利用用于导航系统或便携式电话等设备的嵌入式软件来实现声音识别装置的情况下,也能实现在存储器可使用的容量以内的词典尺寸,因此,适用于需要较大存储器容量的声音识别装置等。

Claims (7)

1.一种声音识别装置,包括:
声音识别词典生成部,该声音识别词典生成部基于识别对象语句来生成声音识别词典;以及声音识别部,该声音识别部参照所述声音识别词典来对识别对象的声音进行声音识别,其特征在于,
包括语句选择部,该语句选择部从所述识别对象语句的候补中选择声音单元数为规定值以下的语句作为所述识别对象语句。
2.一种声音识别装置,包括:
声音识别词典生成部,该声音识别词典生成部基于识别对象语句来生成声音识别词典;以及声音识别部,该声音识别部参照所述声音识别词典来对识别对象的声音进行声音识别,其特征在于,
包括语句选择部,该语句选择部选择语句作为所述识别对象语句,以使得对所述识别对象语句的候补的声音单元数进行总计而得到的总声音单元数为规定值以下。
3.一种声音识别装置,包括:
声音识别词典生成部,该声音识别词典生成部基于识别对象语句来生成声音识别词典;以及声音识别部,该声音识别部参照所述声音识别词典来对识别对象的声音进行声音识别,其特征在于,
包括语句裁减部,该语句裁减部在所述识别对象语句的候补的声音单元数超过规定值的情况下,对超过该规定值的声音单元及之后的声音单元、或包含该声音单元的音节及之后的音节进行裁减以将其去除,并将裁减后的语句作为所述识别对象语句。
4.如权利要求3所述的声音识别装置,其特征在于,
声音识别词典生成部对由语句裁减部实施了裁减处理后获得的识别对象语句的末尾附加杂音模型,并基于附加了该杂音模型的所述识别对象语句来生成声音识别词典。
5.如权利要求1所述的声音识别装置,其特征在于,
包括通知部,该通知部对未被选择作为识别对象语句的候补或成为裁减处理对象的候补进行通知。
6.如权利要求2所述的声音识别装置,其特征在于,
包括通知部,该通知部对未被选择作为识别对象语句的候补或成为裁减处理对象的候补进行通知。
7.如权利要求3所述的声音识别装置,其特征在于,
包括通知部,该通知部对未被选择作为识别对象语句的候补或成为裁减处理对象的候补进行通知。
CN2009801503310A 2009-01-30 2009-10-20 声音识别装置 Expired - Fee Related CN102246226B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2009-019702 2009-01-30
JP2009019702 2009-01-30
PCT/JP2009/005487 WO2010086927A1 (ja) 2009-01-30 2009-10-20 音声認識装置

Publications (2)

Publication Number Publication Date
CN102246226A true CN102246226A (zh) 2011-11-16
CN102246226B CN102246226B (zh) 2013-11-13

Family

ID=42395197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009801503310A Expired - Fee Related CN102246226B (zh) 2009-01-30 2009-10-20 声音识别装置

Country Status (5)

Country Link
US (1) US8200478B2 (zh)
JP (1) JP4772164B2 (zh)
CN (1) CN102246226B (zh)
DE (1) DE112009003930B4 (zh)
WO (1) WO2010086927A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8868431B2 (en) 2010-02-05 2014-10-21 Mitsubishi Electric Corporation Recognition dictionary creation device and voice recognition device
DE112010005425T5 (de) * 2010-03-30 2013-01-10 Mitsubishi Electric Corporation Spracherkennungsvorrichtung
KR102245747B1 (ko) 2014-11-20 2021-04-28 삼성전자주식회사 사용자 명령어 등록을 위한 디스플레이 장치 및 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003337595A (ja) * 2002-05-22 2003-11-28 Takeaki Kamiyama 音声認識装置及び辞書生成装置及び音声認識システム及び音声認識方法及び辞書生成方法及び音声認識プログラム及び辞書生成プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体及び辞書生成プログラムを記録したコンピュータ読み取り可能な記録媒体
CN1573924A (zh) * 2003-06-20 2005-02-02 PtoPA株式会社 语音识别设备、语音识别方法、会话控制设备以及会话控制方法
CN1628338A (zh) * 2002-04-29 2005-06-15 阿德诺塔有限公司 处理语音信息的方法和装置
JP3981640B2 (ja) * 2003-02-20 2007-09-26 日本電信電話株式会社 音素モデル学習用文リスト生成装置、および生成プログラム

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4718094A (en) * 1984-11-19 1988-01-05 International Business Machines Corp. Speech recognition system
US5033087A (en) * 1989-03-14 1991-07-16 International Business Machines Corp. Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
DE19501599C1 (de) * 1995-01-20 1996-05-02 Daimler Benz Ag Verfahren zur Spracherkennung
DE19508137A1 (de) * 1995-03-08 1996-09-12 Zuehlke Werner Prof Dr Ing Hab Verfahren zur schrittweisen Klassifikation arhythmisch segmentierter Worte
JP3790038B2 (ja) 1998-03-31 2006-06-28 株式会社東芝 サブワード型不特定話者音声認識装置
JP3700533B2 (ja) 2000-04-19 2005-09-28 株式会社デンソー 音声認識装置及び処理システム
GB2370401A (en) * 2000-12-19 2002-06-26 Nokia Mobile Phones Ltd Speech recognition
JP2002207181A (ja) 2001-01-09 2002-07-26 Minolta Co Ltd 光スイッチ
JP2002297181A (ja) 2001-03-30 2002-10-11 Kddi Corp 音声認識語彙登録判定方法及び音声認識装置
JP4727852B2 (ja) 2001-06-29 2011-07-20 クラリオン株式会社 ナビゲーション装置及び方法並びにナビゲーション用ソフトウェア
JP2004325704A (ja) 2003-04-24 2004-11-18 Nissan Motor Co Ltd 音声認識装置
JP2006178013A (ja) * 2004-12-20 2006-07-06 Canon Inc データベース作成装置及び方法
WO2008114708A1 (ja) * 2007-03-14 2008-09-25 Nec Corporation 音声認識システム、音声認識方法、および音声認識処理プログラム
JP5046902B2 (ja) 2007-12-13 2012-10-10 三菱電機株式会社 音声検索装置
US8160866B2 (en) * 2008-04-18 2012-04-17 Tze Fen Li Speech recognition method for both english and chinese
JP2010097239A (ja) 2008-10-14 2010-04-30 Nec Corp 辞書作成装置、辞書作成方法、および辞書作成プログラム
US20110224985A1 (en) * 2008-10-31 2011-09-15 Ken Hanazawa Model adaptation device, method thereof, and program thereof
US8155961B2 (en) * 2008-12-09 2012-04-10 Nokia Corporation Adaptation of automatic speech recognition acoustic models

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1628338A (zh) * 2002-04-29 2005-06-15 阿德诺塔有限公司 处理语音信息的方法和装置
JP2003337595A (ja) * 2002-05-22 2003-11-28 Takeaki Kamiyama 音声認識装置及び辞書生成装置及び音声認識システム及び音声認識方法及び辞書生成方法及び音声認識プログラム及び辞書生成プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体及び辞書生成プログラムを記録したコンピュータ読み取り可能な記録媒体
JP3981640B2 (ja) * 2003-02-20 2007-09-26 日本電信電話株式会社 音素モデル学習用文リスト生成装置、および生成プログラム
CN1573924A (zh) * 2003-06-20 2005-02-02 PtoPA株式会社 语音识别设备、语音识别方法、会话控制设备以及会话控制方法

Also Published As

Publication number Publication date
DE112009003930T5 (de) 2012-09-27
JP4772164B2 (ja) 2011-09-14
US8200478B2 (en) 2012-06-12
CN102246226B (zh) 2013-11-13
WO2010086927A1 (ja) 2010-08-05
DE112009003930B4 (de) 2016-12-22
US20110196672A1 (en) 2011-08-11
JPWO2010086927A1 (ja) 2012-07-26

Similar Documents

Publication Publication Date Title
US10546595B2 (en) System and method for improving speech recognition accuracy using textual context
CN108877778A (zh) 语音端点检测方法及设备
CN103971685B (zh) 语音命令识别方法和系统
JP5883014B2 (ja) 録音の終了点自動検出のための方法及びシステム
US8249870B2 (en) Semi-automatic speech transcription
CN103377651B (zh) 语音自动合成装置及方法
KR20190046631A (ko) 자연어 프로세싱을 위한 시스템 및 방법
US20120053935A1 (en) Speech recognition model
WO2015021844A1 (en) Keyword detection for speech recognition
JP5274711B2 (ja) 音声認識装置
EP2862164A1 (en) Multiple pass automatic speech recognition methods and apparatus
US10217458B2 (en) Technologies for improved keyword spotting
CN105321518B (zh) 一种低资源嵌入式语音识别的拒识方法
EP3511931A1 (en) Speech processing device, information processing device, speech processing method, and information processing method
CN102439660A (zh) 基于置信度得分的语音标签方法和装置
CN102246226B (zh) 声音识别装置
JP5235187B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
Xu et al. Approximate search of audio queries by using DTW with phone time boundary and data augmentation
KR20080014680A (ko) 제곱근 디스카운트를 이용한 통계적 언어에 의한 음성 인식방법 및 시스템
Hahn et al. Optimizing CRFs for SLU tasks in various languages using modified training criteria
Chung et al. Endpoint detection using weighted finite state transducer.
JP6244731B2 (ja) 情報処理装置及び情報処理プログラム
CN112447169B (zh) 一种词边界估计方法、装置及电子设备
Ircing et al. Automatic transcription of audio archives for spoken document retrieval.
JP2014056216A (ja) 音声認識装置、音声認識方法、及び、プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20131113

CF01 Termination of patent right due to non-payment of annual fee