CN102959618B - 声音识别装置 - Google Patents
声音识别装置 Download PDFInfo
- Publication number
- CN102959618B CN102959618B CN201080067715.9A CN201080067715A CN102959618B CN 102959618 B CN102959618 B CN 102959618B CN 201080067715 A CN201080067715 A CN 201080067715A CN 102959618 B CN102959618 B CN 102959618B
- Authority
- CN
- China
- Prior art keywords
- voice recognition
- voice data
- noise
- voice
- recording
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000004044 response Effects 0.000 claims abstract description 37
- 238000013500 data storage Methods 0.000 claims abstract description 33
- 230000033228 biological regulation Effects 0.000 claims abstract description 6
- 238000000034 method Methods 0.000 claims description 42
- 230000008569 process Effects 0.000 claims description 40
- 230000009467 reduction Effects 0.000 claims description 29
- 230000008676 import Effects 0.000 abstract description 9
- 238000011946 reduction process Methods 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 18
- 230000009471 action Effects 0.000 description 13
- 101000661807 Homo sapiens Suppressor of tumorigenicity 14 protein Proteins 0.000 description 1
- 230000005534 acoustic noise Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明的声音识别装置包括:声音识别部(3),该声音识别部(3)对输入声音进行声音识别;声音识别词典(4),该声音识别词典(4)登记对输入声音进行声音识别而得到的词语;响应用声音数据存放部(6),该响应用声音数据存放部(6)对登记于声音识别词典(4)中的词语的录音声音数据进行存放;对话控制部(7),该对话控制部(7)在声音识别部(3)对登记于声音识别词典(4)中的词语进行声音识别时,从响应用声音数据存放部(6)获取与该词语相对应的录音声音数据;重放用噪音降低部(8),该重放用噪音降低部(8)对由对话控制部(7)从响应用声音数据存放部(6)获取的录音声音数据中所包含的噪音进行降低处理;振幅调整部(9),该振幅调整部(9)将由重放用噪音降低部(8)降低噪音后的录音声音数据的振幅调整为规定的声音水平的振幅;及声音重放部(10),该声音重放部(10)重放振幅调整部(9)所输出的重放对象的录音声音数据。
Description
技术领域
本发明涉及从所输入的声音数据中去除噪音分量并进行振幅调整、从而实现声音识别率的提高的声音识别装置。
背景技术
以往,公开了各种提供未包含噪音的、对用户而言易于听清的声音的技术。例如,在专利文献1中,利用在噪音去除部中存储的加权即将停止之前的噪音去除参数,从声音与稳定的噪音混杂的信号中仅取出声音信号,进行数字编码。此外,在专利文献2中,构成为:在从扬声器输出的声音或音响难以听清时,利用者操作调整部,使声音或音响的特征发生变化,使其易于与噪音等区别开来。此外,在专利文献3中,在重放声音时,判定基于声源参数而计算出的能量值,根据该判定值来选择预定的增益,按照所选择的增益来修正声音数据的重放音量。
现有技术文献
专利文献
专利文献1:日本专利特开平5-219176号公报
专利文献2:日本专利特开平7-262490号公报
专利文献3:日本专利特开平11-265200号公报
发明内容
由于现有的声音识别及声音重放如以上那样构成,因此,在高噪音下进行输入声音的登记的情况下,对重叠有噪音的声音执行振幅的调整,存在重放的响应声音与固定响应声音相比为较小的声音的问题。
本发明是为了解决上述那样的问题而完成的,其目的在于提供一种能从输入声音中去除噪音、并输出将振幅标准化后的声音的声音识别装置。
本发明所涉及的声音识别装置包括:声音识别部,该声音识别部对输入声音进行声音识别;声音识别词典,该声音识别词典登记对输入声音进行声音识别而得到的词语;响应用声音数据存放部,该响应用声音数据存放部对登记于所述声音识别词典中的词语的录音声音数据进行存放;对话控制部,该对话控制部在所述声音识别部对登记于所述声音识别词典中的词语进行声音识别时,从所述响应用声音数据存放部获取与该词语相对应的录音声音数据;重放用噪音降低部,该重放用噪音降低部对由所述对话控制部从所述响应用声音数据存放部获取的录音声音数据中所包含的噪音进行降低处理;振幅调整部,该振幅调整部将由所述重放用噪音降低部降低噪音后的所述录音声音数据的振幅调整为规定的声音水平的振幅;及声音重放部,该声音重放部重放所述振幅调整部所输出的重放对象的录音声音数据。
此外,声音识别装置包括:声音识别部,该声音识别部对输入声音进行声音识别;声音识别词典,该声音识别词典登记对输入声音进行声音识别而得到的词语;响应用声音数据存放部,该响应用声音数据存放部对登记于所述声音识别词典中的词语的录音声音数据进行存放;对话控制部,该对话控制部在所述声音识别部对登记于所述声音识别词典中的词语进行声音识别时,从所述响应用声音数据存放部获取与该词语相对应的录音声音数据;重放用噪音降低部,该重放用噪音降低部对作为所述录音声音数据而存放于所述响应用声音数据存放部的输入声音中所包含的噪音进行降低处理;振幅调整部,该振幅调整部将由所述对话控制部从所述响应用声音数据存放部获取的所述录音声音数据的振幅调整为规定的声音水平的振幅;及声音重放部,该声音重放部重放所述振幅调整部所输出的重放对象的录音声音数据。
根据本发明,能生成对用户而言易于听清的声音。
附图说明
图1是表示实施方式1所涉及的声音识别装置的结构的框图。
图2是表示实施方式1的声音识别装置中的向声音识别词典进行登记的登记示例的图。
图3是表示实施方式1的声音识别装置中的向响应用声音数据存放部进行登记的登记示例的图。
图4是表示实施方式1的声音识别装置中的振幅调整的说明图。
图5是表示实施方式1所涉及的声音识别装置的动作的流程图。
图6是表示实施方式1所涉及的声音识别装置的动作的流程图。
图7是表示实施方式2所涉及的声音识别装置的结构的框图。
图8是表示实施方式2所涉及的声音识别装置的动作的流程图。
图9是表示实施方式2所涉及的声音识别装置的动作的流程图。
图10是表示实施方式3所涉及的声音识别装置的结构的框图。
图11是表示实施方式3所涉及的声音识别装置的动作的流程图。
图12是表示实施方式4所涉及的声音识别装置的结构的框图。
具体实施方式
以下,为了更详细地说明本发明,按照附图说明用于实施本发明的方式。
实施方式1
图1是表示实施方式1所涉及的声音识别装置的结构的框图。
实施方式1的声音识别装置1包括声音输入部2、声音识别部3、声音识别词典4、声音录音部5、响应用声音数据存放部6、对话控制部7、重放用噪音降低部8、输出振幅调整部(振幅调整部)9、及声音重放部10。
声音输入部2接收用户所发出的声音的输入,输出声音数据。在向声音识别词典4进行登记的登记处理中,声音识别部3对从声音输入部2输入的声音数据进行识别,使声音识别结果与固有ID相对应地登记到声音识别词典4中。声音识别例如利用下述的专利文献1所揭示的隐马尔可夫模型(HiddenMarkov Model)来进行。图2是表示实施方式1的声音识别装置中的向声音识别词典4进行登记的登记示例的图。此处,声音识别结果例如是音素序列等。此外,在基于用户的发声来调出录音声音数据的处理中,声音识别部3对从声音输入部2输入的声音数据进行识别,参照声音识别词典4,获取与识别出的词语相对应的ID。另外,词语(word)不仅包含日语或外语中使用的单词,还包含数字、字母、标号等的组合(例如,型号)等。
[参考文献1]
古井贞熙“声音信息处理”第5章
声音识别词典4将声音识别部3的声音识别结果与固有ID一起进行存储。声音录音部5对从声音输入部2输入的声音数据进行录音,并登记到响应用声音数据存放部6中。录音声音数据的登记是附加与声音识别部3所附加对应的ID相同的ID来进行的。响应用声音数据存放部6将录音声音数据与固有ID一起进行存储。图3是表示实施方式1所涉及的声音识别装置中的向响应用声音数据存放部6进行登记的登记示例的图。
对话控制部7在用户说出与登记于声音识别词典4的声音数据相同的内容的情况下,从声音识别部3获取与发声内容相同的声音识别结果的ID,从响应用声音数据存放部6获取与该ID相同ID的录音声音数据。重放用噪音降低部8将从对话控制部7输入的录音声音数据中的噪音去除。作为噪音去除方法,可应用例如参考文献1(P126)及参考文献2所揭示的谱减法等。对重放用的声音数据进行噪音去除处理,以成为在人的听觉上不会感到不自然的声音。
[参考文献2]
S.F,Boll.“使用谱减法来抑制语音中的噪音(Suppression of acousticnoise in speech using spectral subtraction),”IEEE Trans.Acoust.Speech SignalProcess.,vol.ASSP-27,no.2,pp.113-120,1979.)
输出振幅调整部9将由重放用噪音降低部8去除噪音后的录音声音数据的振幅调整为规定的声音水平的振幅。振幅调整的具体例如图4所示。图4的示例中,进行振幅调整,使得去除噪音后的录音声音数据的振幅的最大值与固定响应声音数据的振幅的最大值相一致。声音重放部10对进行振幅调整后的录音声音数据进行重放,输出响应声音。
接下来,对声音识别装置1的动作进行说明。图5及图6是表示实施方式1所涉及的声音识别装置的动作的流程图。另外,将声音识别装置1的动作分成图5所示的将声音数据登记于声音识别词典4和响应用声音数据存放部6中的处理、和图6所示的基于用户的发声来调出录音声音数据的处理,以进行说明。
首先,在图5所示的将声音数据登记于声音识别词典4和响应用声音数据存放部6的处理中,若用户在可录音的状态下发声,则声音输入部2将用户的声音进行AD转换,例如以PCM(Pulse Code Modulation:脉冲编码调制)的格式进行获取,并将其作为声音数据进行输出(步骤ST1)。声音识别部3对步骤ST1中从声音输入部2输入的声音数据进行识别,生成声音识别结果,并且,使所生成的声音识别结果与固有ID相对应(步骤ST2)。声音识别例如是利用隐马尔可夫模型来进行的。此外,声音识别部3将所生成的声音识别结果和ID登记到声音识别词典4中(步骤ST3)。
另一方面,声音录音部5对步骤ST1中从声音输入部2输入的声音数据进行录音(步骤ST4),对录音声音数据附加与步骤ST3中登记于声音识别词典4时的ID相同的ID,并登记于响应用声音数据存放部6(步骤ST5)。
接下来,参照图6,对基于用户的发声来调出录音声音数据的处理进行说明。此处,对用户说出与登记于声音识别词典4的声音相同的内容、执行命令或调出录音声音数据的情况进行说明。
若用户发声,则声音输入部2获取声音,以作为声音数据进行输出(步骤ST11)。声音识别部3对步骤ST11中从声音输入部2输入的声音数据进行识别,从声音识别词典4获取与识别出的词语相对应的ID,将所获取的ID输出到对话控制部7(步骤ST12)。声音识别例如是利用隐马尔可夫模型来进行的。
对话控制部7参照响应用声音数据存放部6,获取具有与步骤ST12中输入的ID相同的ID的录音声音数据,并输出到重放用噪音降低部8(步骤ST13)。重放用噪音降低部8基于谱减法等噪音去除方式等,对步骤ST13中输入的录音声音数据去除噪音以使得在人的听觉上不会感到不自然,并输出到输出振幅调整部9(步骤ST14)。输出振幅调整部9对步骤ST14中输入的去除噪音后的录音声音数据进行振幅调整,并输出到声音重放部10(步骤ST15)。声音重放部10对步骤ST15中输入的录音声音数据进行重放(步骤ST16)。
如上所述,根据该实施方式1,由于构成为在利用重放用噪音降低部8降低录音声音数据的噪音之后,利用输出振幅调整部9将振幅调整为规定的声音水平的振幅,因此,能使得由声音重放部10重放的响应声音的大小与固定响应声音相同,从而能重放出对用户而言容易听清的声音。
实施方式2
图7是表示实施方式2所涉及的声音识别装置的结构的框图。
该实施方式2的声音识别装置1A设置成对实施方式1中示出的声音识别装置1追加识别用噪音降低部11。以下,对于与实施方式1所涉及的声音识别装置的结构要素相同或相当的部分标注与实施方式1中使用的标号相同的标号,并省略或者简化说明。
识别用噪音降低部11配置在声音输入部2与声音识别部3之间,对从声音输入部2输入的声音数据实施噪音去除处理。作为噪音去除方法,可应用例如参考文献1及参考文献2所揭示的谱减法等。对识别用的声音数据进行噪音去除处理,以提高声音识别部3的识别率。
接下来,实施方式2的声音识别装置1A中,以将声音数据登记于声音识别词典4的动作、及基于用户的发声来调出录音声音数据的处理为中心进行说明。图8及图9是表示实施方式2所涉及的声音识别装置的动作的流程图。以下,对于与实施方式1的声音识别装置相同的步骤标注与图5及图6中使用的标号相同的标号,并省略或者简化说明。
首先,参照图8,对将声音数据登记于声音识别词典4的处理进行说明。若将作为步骤ST1由声音输入部2所获取的声音数据输出,则识别用噪音降低部11基于谱减法等噪音去除方式等,对该声音数据进行噪音去除处理以成为适合声音识别的声音,并输出到声音识别部3(步骤ST21)。声音识别部3对步骤ST21中输入的去除噪音后的声音数据进行识别,生成声音识别结果,并且,使所生成的声音识别结果与固有ID相对应(步骤ST22)。声音识别例如是利用隐马尔可夫模型来进行的。此外,声音识别部3将所生成的声音识别结果和ID登记到声音识别词典4中(步骤ST3)。另外,将声音数据登记于响应用声音数据存放部6的处理与实施方式1相同。
接下来,参照图9,对基于用户的发声来调出录音声音数据的处理进行说明。此处,对用户说出与登记于声音识别词典4的声音相同的内容、执行命令或调出录音声音数据的情况进行说明。
若将作为步骤ST11由声音输入部2所获取的声音数据输出,则识别用噪音降低部11基于谱减法等噪音去除方式等,对该声音数据进行噪音去除处理以成为适合声音识别的声音,并输出到声音识别部3(步骤ST23)。声音识别部3对步骤ST23中输入的去除噪音后的声音数据进行识别,从声音识别词典4获取与识别出的词语相对应的ID,将所获取的ID输出到对话控制部7(步骤ST24)。声音识别例如是利用隐马尔可夫模型来进行的。之后的处理与实施方式1相同。
如上所述,根据该实施方式2,由于构成为包括在进行声音识别前进行噪音去除处理的识别用噪音降低部11,因此,能避免因对声音数据双重地施加识别用的噪音降低处理和重放用的噪音降低处理而导致音质变差,并能力图提高识别率。
实施方式3
图10是表示实施方式3所涉及的声音识别装置的结构的框图。在该实施方式3中,将实施方式1的声音识别装置1的重放用噪音降低部8配置在声音输入部2与声音录音部5之间。对于与实施方式1的声音识别装置的结构要素相同或相当的部分标注与实施方式1中使用的标号相同的标号,并省略或者简化说明。
如图10所示,在对声音数据进行录音之前去除噪音的情况下,对从对话控制部7输出的录音声音数据不进行噪音去除处理。这是为了防止对重放用的录音声音数据进行双重的噪音去除处理。
接下来,对实施方式3的声音识别装置1B中将声音数据登记于响应用声音数据存放部6的动作进行说明。图11是表示实施方式3所涉及的声音识别装置的动作的流程图。对于与实施方式1的声音识别装置1相同的步骤标注与图5中使用的标号相同的标号,并省略或者简化说明。
若作为步骤ST1由声音输入部2输出声音数据,则重放用噪音降低部8基于谱减法等噪音去除方式等,对该声音数据去除噪音以使得在人的听觉上不会感到不自然,并输出到声音录音部5(步骤ST31)。声音录音部5对步骤ST31中从重放用噪音降低部8输入的去除噪音后的声音数据进行录音(步骤ST32),对录音声音数据附加与步骤ST3中登记于声音识别词典4时的ID相同的ID,并登记于响应用声音数据存放部6(步骤ST5)。
另外,将声音数据登记于声音识别词典4的处理与实施方式1相同。此外,基于用户的发声来调出录音声音数据的处理省略了实施方式1的图6的流程图中ST14的从录音声音数据中去除噪音的处理。具体而言,将对话控制部7所获取的录音声音数据输出到输出振幅调整部9,输出振幅调整部9对该录音声音数据进行振幅的调整,并输出到声音重放部10。
如上所述,根据该实施方式3,由于构成为将重放用噪声降低部8设置在声音输入部2与声音录音部5之间,将实施噪音降低处理后的录音声音数据登记于响应用声音数据存放部6,因此,无需每次在重放录音声音数据时都实施噪音降低处理,能削减处理量。
实施方式4
图12是表示实施方式4所涉及的声音识别装置的结构的框图。
在该实施方式4的声音识别装置1C中,将实施方式2示出的声音识别装置1A的重放用噪音降低部8配置在声音输入部2与声音录音部5之间。实施方式4的声音识别装置1C的结构要素与实施方式2相同,省略其说明。
此外,该实施方式4的声音识别装置1C的动作中,将声音数据登记于声音识别词典4的处理与实施方式2相同,将声音数据登记于响应用声音数据存放部6的处理及基于用户的发声来调出录音声音数据的处理与实施方式3相同。
如上所述,根据该实施方式4,由于构成为将重放用噪声降低部8设置在声音输入部2与声音录音部5之间,将实施噪音降低处理后的录音声音数据登记于响应用声音数据存放部6,因此,无需每次在重放录音声音数据时都实施噪音降低处理,能削减处理量。
此外,由于构成为将识别用噪音降低部11设置在声音输入部2与声音识别部3之间,并将实施噪音降低处理后的声音数据登记于声音识别词典4,因此,能力图提高对声音数据的识别率。
另外,在实施方式1至实施方式4中,示出对重放用及识别用噪音降低处理例如使用谱减法等相同方式的结构,但即使在使用相同方式的情况下,通过调整参数,也能进行分别适于重放用或识别用的噪音去除。
工业上的实用性
由于本发明所涉及的声音识别装置能重放出不包含噪音而与固定响应声音数据的振幅相近的声音,因此,适用于导航装置等,可用于提供用户易于听清的声音。
Claims (1)
1.一种声音识别装置,其特征在于,包括:
声音输入部,该声音输入部输入用户所发出的声音;
识别用噪音降低部,该识别用噪音降低部对由所述声音输入部所输入的声音数据进行用于声音识别的噪音降低处理;
声音识别部,该声音识别部对由所述识别用噪音降低部降低噪音后的声音数据进行识别;
声音识别词典,该声音识别词典登记由所述声音识别部所输出的词语;
重放用噪音降低部,该重放用噪音降低部对由所述声音输入部所输入的声音数据进行用于重放的噪音降低处理;
响应用声音数据存放部,该响应用声音数据存放部对由所述重放用噪音降低部降低噪音后的录音声音数据进行存储;
对话控制部,该对话控制部在所述声音识别部对登记于所述声音识别词典中的词语进行声音识别时,从所述响应用声音数据存放部获取与该词语相对应的录音声音数据;
振幅调整部,该振幅调整部将由所述对话控制部从所述响应用声音数据存放部获取的所述录音声音数据的振幅调整为规定的声音水平的振幅;以及
声音重放部,该声音重放部重放由所述振幅调整部输出的重放对象的录音声音数据,
进行分别与用于重放的噪音降低处理或用于识别的噪音降低处理相适应的噪音去除。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2010/004269 WO2012001730A1 (ja) | 2010-06-28 | 2010-06-28 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102959618A CN102959618A (zh) | 2013-03-06 |
CN102959618B true CN102959618B (zh) | 2015-08-05 |
Family
ID=45401495
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201080067715.9A Expired - Fee Related CN102959618B (zh) | 2010-06-28 | 2010-06-28 | 声音识别装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8990092B2 (zh) |
JP (1) | JP5301037B2 (zh) |
CN (1) | CN102959618B (zh) |
DE (1) | DE112010005706B4 (zh) |
WO (1) | WO2012001730A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102008041104A1 (de) | 2008-08-07 | 2010-02-11 | Maschinenfabrik Gustav Eirich Gmbh & Co. Kg | Mischvorrichtung mit Induktionsheizung |
CN104064185B (zh) * | 2013-03-18 | 2017-06-27 | 联想(北京)有限公司 | 信息处理方法及系统、电子设备 |
US10403265B2 (en) * | 2014-12-24 | 2019-09-03 | Mitsubishi Electric Corporation | Voice recognition apparatus and voice recognition method |
JP6060989B2 (ja) * | 2015-02-25 | 2017-01-18 | カシオ計算機株式会社 | 音声録音装置、音声録音方法、及びプログラム |
CN107172255A (zh) * | 2017-07-21 | 2017-09-15 | 广东欧珀移动通信有限公司 | 语音信号自适应调整方法、装置、移动终端及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101111885A (zh) * | 2005-02-04 | 2008-01-23 | 株式会社查纳位资讯情报 | 使用抽出的声音数据生成应答声音的声音识别系统 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5222146A (en) * | 1991-10-23 | 1993-06-22 | International Business Machines Corporation | Speech recognition apparatus having a speech coder outputting acoustic prototype ranks |
DE69232407T2 (de) * | 1991-11-18 | 2002-09-12 | Toshiba Kawasaki Kk | Sprach-Dialog-System zur Erleichterung von Rechner-Mensch-Wechselwirkung |
JPH05219176A (ja) | 1992-02-07 | 1993-08-27 | Matsushita Electric Ind Co Ltd | 音声認識電話機 |
JPH0764594A (ja) | 1993-08-27 | 1995-03-10 | Ricoh Co Ltd | 音声認識装置 |
JP3360398B2 (ja) | 1994-03-16 | 2002-12-24 | 日産自動車株式会社 | 車載用ナビゲーション装置 |
JP3968133B2 (ja) * | 1995-06-22 | 2007-08-29 | セイコーエプソン株式会社 | 音声認識対話処理方法および音声認識対話装置 |
US5842168A (en) * | 1995-08-21 | 1998-11-24 | Seiko Epson Corporation | Cartridge-based, interactive speech recognition device with response-creation capability |
JPH10240283A (ja) * | 1997-02-27 | 1998-09-11 | Sanyo Electric Co Ltd | 音声処理装置及び電話装置 |
US5897616A (en) * | 1997-06-11 | 1999-04-27 | International Business Machines Corporation | Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases |
JP3307875B2 (ja) | 1998-03-16 | 2002-07-24 | 松下電送システム株式会社 | 符号化音声再生装置および符号化音声再生方法 |
JP3670180B2 (ja) * | 1999-02-16 | 2005-07-13 | 有限会社ジーエムアンドエム | 補聴器 |
WO2000049834A1 (fr) | 1999-02-16 | 2000-08-24 | Yugen Kaisha Gm & M | Dispositif de conversion de la parole et procede correspondant |
JP3849841B2 (ja) * | 2000-03-15 | 2006-11-22 | オムロン株式会社 | 話者認識装置 |
EP1229518A1 (en) * | 2001-01-31 | 2002-08-07 | Alcatel | Speech recognition system, and terminal, and system unit, and method |
US20040054528A1 (en) * | 2002-05-01 | 2004-03-18 | Tetsuya Hoya | Noise removing system and noise removing method |
JP2005122042A (ja) * | 2003-10-20 | 2005-05-12 | Toyota Motor Corp | 音声認識装置、音声認識方法、音声合成装置、音声合成方法、音声認識システム、音声合成システム、音声認識合成装置、およびナビゲーションシステム、ならびに移動体 |
GB2416874B (en) * | 2004-08-02 | 2006-07-26 | Louis Augustus George Atteck | A translation and transmission system |
JP2006330170A (ja) * | 2005-05-24 | 2006-12-07 | Nhk Engineering Services Inc | 記録文書作成支援システム |
JP5037041B2 (ja) * | 2006-06-23 | 2012-09-26 | アルパイン株式会社 | 車載用音声認識装置及び音声コマンド登録方法 |
JP2008256802A (ja) | 2007-04-02 | 2008-10-23 | Fujitsu Ten Ltd | 音声認識装置および音声認識方法 |
JP2009104047A (ja) * | 2007-10-25 | 2009-05-14 | Canon Inc | 情報処理方法及び情報処理装置 |
-
2010
- 2010-06-28 DE DE112010005706.0T patent/DE112010005706B4/de active Active
- 2010-06-28 JP JP2012522346A patent/JP5301037B2/ja active Active
- 2010-06-28 US US13/582,950 patent/US8990092B2/en active Active
- 2010-06-28 WO PCT/JP2010/004269 patent/WO2012001730A1/ja active Application Filing
- 2010-06-28 CN CN201080067715.9A patent/CN102959618B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101111885A (zh) * | 2005-02-04 | 2008-01-23 | 株式会社查纳位资讯情报 | 使用抽出的声音数据生成应答声音的声音识别系统 |
Also Published As
Publication number | Publication date |
---|---|
DE112010005706B4 (de) | 2018-11-08 |
US20120330655A1 (en) | 2012-12-27 |
WO2012001730A1 (ja) | 2012-01-05 |
DE112010005706T5 (de) | 2013-04-25 |
JPWO2012001730A1 (ja) | 2013-08-22 |
CN102959618A (zh) | 2013-03-06 |
JP5301037B2 (ja) | 2013-09-25 |
US8990092B2 (en) | 2015-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2638744C2 (ru) | Устройство и способ для уменьшения шума квантования в декодере временной области | |
US8504360B2 (en) | Automatic sound recognition based on binary time frequency units | |
EP1760696A2 (en) | Method and apparatus for improved estimation of non-stationary noise for speech enhancement | |
CN102959618B (zh) | 声音识别装置 | |
JP2002014689A (ja) | デジタルに圧縮されたスピーチの了解度を向上させる方法および装置 | |
JP5411807B2 (ja) | チャネル統合方法、チャネル統合装置、プログラム | |
JPH0226240B2 (zh) | ||
CN108257605B (zh) | 多通道录音方法、装置及电子设备 | |
CN116420188A (zh) | 从呼叫和音频消息中对其他说话者进行语音过滤 | |
US6546369B1 (en) | Text-based speech synthesis method containing synthetic speech comparisons and updates | |
JP2007017620A (ja) | 発話区間検出装置、そのためのコンピュータプログラム及び記録媒体 | |
JPH0993135A (ja) | 発声音データの符号化装置及び復号化装置 | |
JP2000152394A (ja) | 軽度難聴者用補聴装置、軽度難聴者対応伝送システム、軽度難聴者対応記録再生装置、及び軽度難聴者対応再生装置 | |
JP3961616B2 (ja) | 話速変換方法および話速変換機能付補聴器 | |
JP2001255894A (ja) | 再生速度変換装置及び方法 | |
JPH0916193A (ja) | 話速変換装置 | |
CN111717754A (zh) | 基于安全警报语的轿厢式电梯的控制方法 | |
JP3474071B2 (ja) | 音声認識装置および標準パターン登録方法 | |
JP4143487B2 (ja) | 時系列情報制御システム及びその方法並びに時系列情報制御プログラム | |
JP4366986B2 (ja) | 音声認識装置 | |
WO2019030810A1 (ja) | 音声認識装置および音声認識方法 | |
CN108198560A (zh) | 基于声纹识别的录音优化方法及其录音优化系统 | |
WO2021245771A1 (ja) | 学習データ生成装置、モデル学習装置、学習データ生成方法、モデル学習方法、およびプログラム | |
JP2005173476A (ja) | 音声変換装置及びその制御方法、プログラム | |
CN117496983A (zh) | 语音识别方法及其装置、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20150805 Termination date: 20210628 |
|
CF01 | Termination of patent right due to non-payment of annual fee |