JP2017097330A5 - - Google Patents

Download PDF

Info

Publication number
JP2017097330A5
JP2017097330A5 JP2016151383A JP2016151383A JP2017097330A5 JP 2017097330 A5 JP2017097330 A5 JP 2017097330A5 JP 2016151383 A JP2016151383 A JP 2016151383A JP 2016151383 A JP2016151383 A JP 2016151383A JP 2017097330 A5 JP2017097330 A5 JP 2017097330A5
Authority
JP
Japan
Prior art keywords
processing
section
voice
information
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016151383A
Other languages
Japanese (ja)
Other versions
JP6203343B2 (en
JP2017097330A (en
Filing date
Publication date
Application filed filed Critical
Priority to US15/344,653 priority Critical patent/US10079020B2/en
Priority to EP16198319.2A priority patent/EP3171360B1/en
Publication of JP2017097330A publication Critical patent/JP2017097330A/en
Publication of JP2017097330A5 publication Critical patent/JP2017097330A5/ja
Application granted granted Critical
Publication of JP6203343B2 publication Critical patent/JP6203343B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Claims (9)

音声認識方法であって、
処理区間に含まれる第1無音区間の長さを決定するための基準値を決定する基準値決定ステップと、
互いに処理量が異なる複数の音声処理の処理モードから、前記基準値に応じて、使用する処理モードを決定する処理モード決定ステップと、
前記処理区間を含む入力区間の音声情報から、前記基準値を用いて、対象区間と、前記対象区間の後の前記第1無音区間とを含む前記処理区間の音声情報を取得する終話判定ステップと、
前記処理区間の音声情報のうち前記対象区間の音声情報に対して、決定された前記処理モードで音声処理を実行する音声処理ステップと、
前記音声処理が実行された前記対象区間の音声情報に対して音声認識処理を実行する音声認識ステップとを含み、
前記基準値決定ステップでは、前記基準値として、前記処理区間の終端を判定するための情報であり、前記第1無音区間の長さを示す閾値を決定し、
前記処理モード決定ステップでは、前記閾値に基づいて前記処理モードを決定し、
前記音声認識方法は、さらに、
前記入力区間の音声情報から無音区間を検出する検出ステップを含み、
前記終話判定ステップでは、無音区間の長さが前記閾値を超えた時刻を、前記処理区間の終端であると判定することで、前記入力区間の音声情報から前記処理区間の音声情報を抽出し、
前記音声処理は、前記音声情報の雑音抑圧処理であり、
前記処理モード決定ステップでは、前記処理モードとして、雑音抑圧アルゴリズム、又は雑音抑圧パラメータを決定する
音声認識方法。
A speech recognition method,
A reference value determining step for determining a reference value for determining the length of the first silent section included in the processing section;
A processing mode determination step for determining a processing mode to be used according to the reference value from a plurality of processing modes of voice processing having different processing amounts from each other;
End-of-speech determination step of acquiring speech information of the processing section including the target section and the first silent section after the target section from the speech information of the input section including the processing section using the reference value. When,
A voice processing step of performing voice processing in the determined processing mode on the voice information of the target section among the voice information of the processing section;
Look containing a voice recognition step of executing speech recognition processing on the audio information of the target section sound processing is performed,
In the reference value determining step, as the reference value, information for determining the end of the processing section, a threshold value indicating the length of the first silent section is determined,
In the processing mode determination step, the processing mode is determined based on the threshold value,
The speech recognition method further includes:
A detection step of detecting a silent section from the voice information of the input section,
In the end of speech determination step, the time when the length of the silent section exceeds the threshold is determined as the end of the processing section, so that the voice information of the processing section is extracted from the voice information of the input section. ,
The voice processing is noise suppression processing of the voice information,
The speech recognition method of determining a noise suppression algorithm or a noise suppression parameter as the processing mode in the processing mode determination step .
音声認識方法であって、
処理区間に含まれる第1無音区間の長さを決定するための基準値を決定する基準値決定ステップと、
互いに処理量が異なる複数の音声処理の処理モードから、前記基準値に応じて、使用する処理モードを決定する処理モード決定ステップと、
前記処理区間を含む入力区間の音声情報から、前記基準値を用いて、対象区間と、前記対象区間の後の前記第1無音区間とを含む前記処理区間の音声情報を取得する終話判定ステップと、
前記処理区間の音声情報のうち前記対象区間の音声情報に対して、決定された前記処理モードで音声処理を実行する音声処理ステップと、
前記音声処理が実行された前記対象区間の音声情報に対して音声認識処理を実行する音声認識ステップとを含み、
前記基準値決定ステップでは、前記基準値として、前記処理区間の終端を判定するための情報であり、前記第1無音区間の長さを示す閾値を決定し、
前記処理モード決定ステップでは、前記閾値に基づいて前記処理モードを決定し、
前記音声認識方法は、さらに、
前記入力区間の音声情報から無音区間を検出する検出ステップを含み、
前記終話判定ステップでは、無音区間の長さが前記閾値を超えた時刻を、前記処理区間の終端であると判定することで、前記入力区間の音声情報から前記処理区間の音声情報を抽出し、
前記音声処理は、前記音声情報の符号化処理であり、
前記処理モード決定ステップでは、前記処理モードとして、符号化アルゴリズム、又は符号化パラメータを決定し、
前記音声認識方法は、さらに、
前記音声処理として符号化が実行された音声情報を音声認識装置に伝送する伝送ステップと、
前記音声認識装置にて、伝送された前記音声情報を復号する復号ステップとを含み、
前記音声認識ステップでは、前記音声認識装置により、復号された前記音声情報に対して前記音声認識処理が実行される
声認識方法。
A speech recognition method,
A reference value determining step for determining a reference value for determining the length of the first silent section included in the processing section;
A processing mode determination step for determining a processing mode to be used according to the reference value from a plurality of processing modes of voice processing having different processing amounts from each other;
End-of-speech determination step of acquiring speech information of the processing section including the target section and the first silent section after the target section from the speech information of the input section including the processing section using the reference value. When,
A voice processing step of performing voice processing in the determined processing mode on the voice information of the target section among the voice information of the processing section;
A voice recognition step of performing voice recognition processing on voice information of the target section on which the voice processing has been executed,
In the reference value determining step, as the reference value, information for determining the end of the processing section, a threshold value indicating the length of the first silent section is determined,
In the processing mode determination step, the processing mode is determined based on the threshold value,
The speech recognition method further includes:
A detection step of detecting a silent section from the voice information of the input section,
In the call termination determination step, a time length of the silence interval exceeds the threshold value, by determining that the termination of the processing section, extracts audio information of the processing section from the voice information of the input section ,
The audio processing is encoding processing of the audio information,
In the processing mode determination step, an encoding algorithm or an encoding parameter is determined as the processing mode,
The speech recognition method further includes:
A transmission step of transmitting voice information encoded as the voice processing to a voice recognition device;
A decoding step of decoding the transmitted voice information in the voice recognition device,
In the voice recognition step, the voice recognition processing is executed on the decoded voice information by the voice recognition device.
Voice recognition method.
前記音声処理ステップでは、前記対象区間に含まれる無音区間を除去し、前記無音区間を除去した前記対象区間の音声情報に対して前記音声処理を実行する
請求項1又は2記載の音声認識方法。
3. The speech recognition method according to claim 1, wherein in the speech processing step, a silent section included in the target section is removed, and the speech processing is executed on the speech information of the target section from which the silent section is removed.
前記音声認識方法は、さらに、
決定された前記処理モードでの前記音声処理の処理時間を計測する処理時間計測ステップと、
計測された前記処理時間に基づき、前記音声処理の処理モードを変更する処理モード変更ステップとを含む
請求項1〜のいずれか1項に記載の音声認識方法。
The speech recognition method further includes:
A processing time measuring step of measuring a processing time of the voice processing in the determined processing mode;
Based on the measured the processing time, the speech recognition method according to any one of claims 1 to 3 including a processing mode changing step of changing the processing mode of the speech processing.
前記音声処理ステップにおいて前記処理区間の時間長の間に前記対象区間の音声情報に前記音声処理が行われるように、前記処理モード決定ステップでは前記処理モードが決定される
請求項1〜のいずれか1項に記載の音声認識方法。
Wherein as the audio processing in the audio information of the target section for the time length of the processing section in the audio processing step is performed, wherein the processing mode determination step any of claims 1-4, wherein the processing mode is determined The speech recognition method according to claim 1.
音声認識装置であって、
処理区間に含まれる第1無音区間の長さを決定するための基準値を決定する基準値決定部と、
互いに処理量が異なる複数の音声処理の処理モードから、前記基準値に応じて、使用する処理モードを決定する処理モード決定部と、
前記処理区間を含む入力区間の音声情報を取得する音声取得部と、
前記入力区間の音声情報から、前記基準値を用いて、対象区間と、前記対象区間の後の前記第1無音区間とを含む前記処理区間の音声情報を取得する終話判定部と、
前記処理区間の音声情報のうち前記対象区間の音声情報に対して、決定された前記処理モードで音声処理を実行する音声処理部と、
前記音声処理が実行された前記対象区間の音声情報に対して音声認識処理を実行する音声認識部とを備える
前記基準値決定部は、前記基準値として、前記処理区間の終端を判定するための情報であり、前記第1無音区間の長さを示す閾値を決定し、
前記処理モード決定部は、前記閾値に基づいて前記処理モードを決定し、
前記音声認識装置は、さらに、
前記入力区間の音声情報から無音区間を検出する検出部を備え、
前記終話判定部は、無音区間の長さが前記閾値を超えた時刻を、前記処理区間の終端であると判定することで、前記入力区間の音声情報から前記処理区間の音声情報を抽出し、
前記音声処理は、前記音声情報の雑音抑圧処理であり、
前記処理モード決定部は、前記処理モードとして、雑音抑圧アルゴリズム、又は雑音抑圧パラメータを決定する
音声認識装置。
A speech recognition device,
A reference value determining unit that determines a reference value for determining the length of the first silent section included in the processing section;
A processing mode determination unit that determines a processing mode to be used from a plurality of processing modes of voice processing having different processing amounts according to the reference value;
A voice acquisition unit that acquires voice information of an input section including the processing section;
From the voice information of the input section, using the reference value, an end-of-speech determination unit that acquires voice information of the processing section including the target section and the first silent section after the target section;
A voice processing unit that performs voice processing in the determined processing mode on voice information of the target section among voice information of the processing section;
A speech recognition unit that performs speech recognition processing on the speech information of the target section on which the speech processing has been performed.
The reference value determination unit is information for determining the end of the processing section as the reference value, and determines a threshold value indicating the length of the first silent section;
The processing mode determination unit determines the processing mode based on the threshold value,
The voice recognition device further includes:
A detection unit for detecting a silent section from the voice information of the input section;
The end speech determination unit extracts the audio information of the processing section from the audio information of the input section by determining that the time when the length of the silent section exceeds the threshold is the end of the processing section. ,
The voice processing is noise suppression processing of the voice information,
The processing mode determination unit is a speech recognition apparatus that determines a noise suppression algorithm or a noise suppression parameter as the processing mode .
音声認識装置であって、  A speech recognition device,
処理区間に含まれる第1無音区間の長さを決定するための基準値を決定する基準値決定部と、  A reference value determining unit that determines a reference value for determining the length of the first silent section included in the processing section;
互いに処理量が異なる複数の音声処理の処理モードから、前記基準値に応じて、使用する処理モードを決定する処理モード決定部と、  A processing mode determination unit that determines a processing mode to be used from a plurality of processing modes of voice processing having different processing amounts according to the reference value;
前記処理区間を含む入力区間の音声情報から、前記基準値を用いて、対象区間と、前記対象区間の後の前記第1無音区間とを含む前記処理区間の音声情報を取得する終話判定部と、  End speech determination unit for acquiring speech information of the processing section including the target section and the first silent section after the target section from the speech information of the input section including the processing section, using the reference value. When,
前記処理区間の音声情報のうち前記対象区間の音声情報に対して、決定された前記処理モードで音声処理を実行する音声処理部と、  A voice processing unit that performs voice processing in the determined processing mode on voice information of the target section among voice information of the processing section;
前記音声処理が実行された前記対象区間の音声情報に対して音声認識処理を実行する音声認識部とを備え、  A voice recognition unit that performs voice recognition processing on voice information of the target section on which the voice processing has been executed,
前記基準値決定部は、前記基準値として、前記処理区間の終端を判定するための情報であり、前記第1無音区間の長さを示す閾値を決定し、  The reference value determination unit is information for determining the end of the processing section as the reference value, and determines a threshold value indicating the length of the first silent section;
前記処理モード決定部は、前記閾値に基づいて前記処理モードを決定し、  The processing mode determination unit determines the processing mode based on the threshold value,
前記音声認識装置は、さらに、  The voice recognition device further includes:
前記入力区間の音声情報から無音区間を検出する検出部を備え、  A detection unit for detecting a silent section from the voice information of the input section;
前記終話判定部は、無音区間の長さが前記閾値を超えた時刻を、前記処理区間の終端であると判定することで、前記入力区間の音声情報から前記処理区間の音声情報を抽出し、  The end speech determination unit extracts the audio information of the processing section from the audio information of the input section by determining that the time when the length of the silent section exceeds the threshold is the end of the processing section. ,
前記音声処理は、前記音声情報の符号化処理であり、  The audio processing is encoding processing of the audio information,
前記処理モード決定部は、前記処理モードとして、符号化アルゴリズム、又は符号化パラメータを決定し、  The processing mode determination unit determines an encoding algorithm or an encoding parameter as the processing mode,
前記音声認識装置は、さらに、  The voice recognition device further includes:
前記音声処理として符号化が実行された音声情報を復号する復号部を含み、  A decoding unit that decodes audio information that has been encoded as the audio processing;
前記音声認識部は、復号された前記音声情報に対して前記音声認識処理を実行する  The voice recognition unit performs the voice recognition process on the decoded voice information.
音声認識装置。  Voice recognition device.
請求項1記載の音声認識方法をコンピュータに実行させるための
プログラム。
A program for causing a computer to execute the speech recognition method according to claim 1.
請求項2記載の音声認識方法をコンピュータに実行させるための  A method for causing a computer to execute the speech recognition method according to claim 2.
プログラム。  program.
JP2016151383A 2015-11-19 2016-08-01 Speech recognition method and speech recognition apparatus Active JP6203343B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US15/344,653 US10079020B2 (en) 2015-11-19 2016-11-07 Speech recognition method and speech recognition apparatus to improve performance or response of speech recognition
EP16198319.2A EP3171360B1 (en) 2015-11-19 2016-11-11 Speech recognition with determination of noise suppression processing mode

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201562257368P 2015-11-19 2015-11-19
US62/257,368 2015-11-19

Publications (3)

Publication Number Publication Date
JP2017097330A JP2017097330A (en) 2017-06-01
JP2017097330A5 true JP2017097330A5 (en) 2017-07-13
JP6203343B2 JP6203343B2 (en) 2017-09-27

Family

ID=58817799

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016151383A Active JP6203343B2 (en) 2015-11-19 2016-08-01 Speech recognition method and speech recognition apparatus

Country Status (1)

Country Link
JP (1) JP6203343B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019211599A (en) * 2018-06-04 2019-12-12 本田技研工業株式会社 Voice recognition device, voice recognition method, and program
JP7251953B2 (en) * 2018-11-19 2023-04-04 トヨタ自動車株式会社 Speech recognition device, speech recognition method and speech recognition program
JP7131362B2 (en) * 2018-12-20 2022-09-06 トヨタ自動車株式会社 Control device, voice dialogue device and program
JPWO2022070792A1 (en) * 2020-09-29 2022-04-07

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000276189A (en) * 1999-03-25 2000-10-06 Toshiba Corp Japanese dictation system
JP2003059173A (en) * 2001-08-16 2003-02-28 Kenwood Corp Sound recording method and sound recording system

Similar Documents

Publication Publication Date Title
JP2017097330A5 (en)
RU2017122050A (en) AUDIO CODER AND AUDIO DECODER WITH METADATA OF INFORMATION ABOUT THE PROGRAM OR STRUCTURE OF THE NESTED STREAMS
GB2578545A (en) Magnetic detection of replay attack
RU2016105519A (en) METHOD FOR PROCESSING THE AUDIO SIGNAL IN ACCORDANCE WITH THE PULSE CHARACTERISTIC OF THE ROOM, SIGNAL PROCESSING UNIT, AUDIO CODER, AUDIO DECODER AND BINAURAL RENDERING DEVICE
GB2578386A (en) Detection of replay attack
EP4235647A3 (en) Determining dialog states for language models
GB2588040A (en) Detection of replay attack
RU2015135361A (en) OPTIMIZING VOLUME AND DYNAMIC RANGE THROUGH VARIOUS PLAYBACK DEVICES
JP2016534660A5 (en)
MX360558B (en) Audio encoder and decoder using a frequency domain processor, a time domain processor, and a cross processor for continuous initialization.
RU2017103905A (en) IMPROVEMENT OF CLASSIFICATION BETWEEN CODING IN THE TIME AREA AND CODING IN THE FREQUENCY AREA
RU2009136562A (en) METHOD AND DEVICE FOR CONTROLING SMOOTHING OF STATIONARY BACKGROUND NOISE
JP2014202857A5 (en)
ATE386320T1 (en) DEVICE AND METHOD FOR DETERMINING A QUANTIZER STEP SIZE
RU2013142072A (en) DEVICE AND METHOD FOR ENCODING THE PART OF THE AUDIO SIGNAL USING DETECTION OF UNSTABLE STATE AND RESULT OF QUALITY
US9779755B1 (en) Techniques for decreasing echo and transmission periods for audio communication sessions
RU2015143509A (en) DEVICE AND METHOD FOR IMPROVING ACCESSIBILITY OF SPECIFIC SPECIES TO THE USER
FI3764361T3 (en) Method and apparatus for aligning voices
RU2018129139A (en) ASSESSING BACKGROUND NOISE IN AUDIO SIGNALS
JP2016208215A5 (en)
JP6203343B2 (en) Speech recognition method and speech recognition apparatus
BR112016028375A2 (en) method for processing speech / audio signal and device
JP2015169827A (en) Speech processing device, speech processing method, and speech processing program
JP2015141226A5 (en)
JP2017511896A5 (en)