JP7035979B2 - Speech recognition device - Google Patents

Speech recognition device Download PDF

Info

Publication number
JP7035979B2
JP7035979B2 JP2018216852A JP2018216852A JP7035979B2 JP 7035979 B2 JP7035979 B2 JP 7035979B2 JP 2018216852 A JP2018216852 A JP 2018216852A JP 2018216852 A JP2018216852 A JP 2018216852A JP 7035979 B2 JP7035979 B2 JP 7035979B2
Authority
JP
Japan
Prior art keywords
voice
voice recognition
call
unit
call determination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018216852A
Other languages
Japanese (ja)
Other versions
JP2020086006A (en
Inventor
大樹 山下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2018216852A priority Critical patent/JP7035979B2/en
Publication of JP2020086006A publication Critical patent/JP2020086006A/en
Application granted granted Critical
Publication of JP7035979B2 publication Critical patent/JP7035979B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephone Function (AREA)
  • Navigation (AREA)

Description

本発明は、音声認識装置に関する。 The present invention relates to a voice recognition device.

特許文献1には、ユーザに対して冒頭ガイダンスと発話促進ガイダンスを再生し、発話促進ガイダンス再生後のユーザ発声状況から終話判定を行う自動応答録音装置が開示されている。 Patent Document 1 discloses an automatic response recording device that reproduces the opening guidance and the utterance promotion guidance to the user and determines the end of the call from the user's utterance status after the reproduction of the utterance promotion guidance.

特開平5-110690号公報Japanese Unexamined Patent Publication No. 5-110690

特許文献1に記載の装置では、音声が入力されない無音期間が所定期間(例えば1秒)継続したときに終話判定を行い、この終話判定の後に音声認識処理を開始する。そのため、終話を判定するまでの無音期間がそのままユーザの待ち時間となる。従って、特許文献1に記載の装置では、音声認識処理をどれだけ高速化したとしても、ユーザの待ち時間を終話判定期間(=無音期間)以下に短縮することができないという問題があった。 In the apparatus described in Patent Document 1, the end-of-call determination is performed when the silent period in which no voice is input continues for a predetermined period (for example, 1 second), and the voice recognition process is started after the end-of-call determination. Therefore, the silent period until the end of the call is determined becomes the waiting time of the user as it is. Therefore, the device described in Patent Document 1 has a problem that the waiting time of the user cannot be shortened to the end-of-call determination period (= silence period) or less, no matter how fast the voice recognition process is.

本発明は、上記に鑑みてなされたものであって、音声認識処理におけるユーザの待ち時間を短縮し、音声認識処理のレスポンスを向上させることができる音声認識装置を提供することを目的とする。 The present invention has been made in view of the above, and an object of the present invention is to provide a speech recognition device capable of shortening a user's waiting time in a speech recognition process and improving the response of the speech recognition process.

上述した課題を解決し、目的を達成するために、本発明に係る音声認識装置は、入力された音声を処理する制御部を備えた音声認識装置であって、前記制御部は、前記音声が入力されない期間である無音期間が第二閾値期間を経過したときに終話判定を行い、前記無音期間が前記第二閾値期間よりも短い第一閾値期間を経過したときに音声認識処理を開始する。 In order to solve the above-mentioned problems and achieve the object, the voice recognition device according to the present invention is a voice recognition device provided with a control unit for processing the input voice, and the control unit is such that the voice is used. The end-of-call determination is performed when the silent period, which is a non-input period, elapses from the second threshold period, and the voice recognition process is started when the silent period elapses from the first threshold period shorter than the second threshold period. ..

これにより、音声認識装置は、音声認識処理を開始する第一閾値期間が、終話判定を行う第二閾値期間よりも短いため、終話判定を待つことなく音声認識処理が開始される。 As a result, the voice recognition device starts the voice recognition process without waiting for the end-of-call determination because the first threshold period for starting the voice recognition process is shorter than the second threshold period for determining the end of the call.

また、本発明に係る音声認識装置において、前記制御部は、前記第一閾値期間の経過後、かつ前記第二閾値期間の経過前に前記無音期間が終了した場合、前記音声認識処理を中断してもよい。 Further, in the voice recognition device according to the present invention, the control unit interrupts the voice recognition process when the silence period ends after the lapse of the first threshold period and before the lapse of the second threshold period. You may.

これにより、音声認識装置は、音声認識処理を一旦開始したとしても、第二閾値期間の経過前にユーザが発話した場合は、音声認識処理を中断する。 As a result, even if the voice recognition process is started once, the voice recognition device interrupts the voice recognition process if the user speaks before the elapse of the second threshold period.

本発明に係る音声認識装置によれば、終話判定を待つことなく音声認識処理を開始するため、音声認識処理におけるユーザの待ち時間を短縮することができ、音声認識処理のレスポンスを向上させることができる。 According to the voice recognition device according to the present invention, since the voice recognition process is started without waiting for the end-of-call determination, the waiting time of the user in the voice recognition process can be shortened and the response of the voice recognition process can be improved. Can be done.

図1は、本発明の実施形態に係る音声認識装置の構成を示す機能ブロック図である。FIG. 1 is a functional block diagram showing a configuration of a voice recognition device according to an embodiment of the present invention. 図2は、従来の音声認識装置における音声認識処理の開始のタイミングを示す図である。FIG. 2 is a diagram showing the timing of starting the voice recognition process in the conventional voice recognition device. 図3は、本発明の実施形態に係る音声認識装置における音声認識処理の開始のタイミングを示す図である。FIG. 3 is a diagram showing the start timing of the voice recognition process in the voice recognition device according to the embodiment of the present invention. 図4は、本発明の実施形態に係る音声認識装置において、ユーザが一つの文章を、間を開けずに一度に発話した場合の音声認識処理の流れを示すタイムチャートである。FIG. 4 is a time chart showing a flow of voice recognition processing when a user utters one sentence at a time without a gap in the voice recognition device according to the embodiment of the present invention. 図5は、本発明の実施形態に係る音声認識装置において、ユーザが複数の文章および単語を、間を開けながら発話した場合の音声認識処理の流れを示すタイムチャートである。FIG. 5 is a time chart showing a flow of voice recognition processing when a user utters a plurality of sentences and words with a gap in the voice recognition device according to the embodiment of the present invention.

本発明の実施形態に係る音声認識装置について、図面を参照しながら説明する。なお、本発明は以下の実施形態に限定されるものではない。また、下記実施形態における構成要素には、当業者が置換可能かつ容易なもの、あるいは実質的に同一のものが含まれる。 The voice recognition device according to the embodiment of the present invention will be described with reference to the drawings. The present invention is not limited to the following embodiments. In addition, the components in the following embodiments include those that can be easily replaced by those skilled in the art, or those that are substantially the same.

[音声認識装置]
本実施形態に係る音声認識装置1は、例えば車両に車載器として搭載され、図1に示すように、マイク10と、制御部20と、音声バッファ30と、を備えている。この音声認識装置1の機能は、単一の装置により実現されてもよく、あるいは複数の装置により実現されてもよい。
[Voice recognition device]
The voice recognition device 1 according to the present embodiment is mounted on a vehicle, for example, as an on-board unit, and includes a microphone 10, a control unit 20, and a voice buffer 30 as shown in FIG. The function of the voice recognition device 1 may be realized by a single device, or may be realized by a plurality of devices.

マイク10は、ユーザが発話した音声を集音し、その音声信号を制御部20の音声取得部21に出力する。制御部(プロセッサ)20は、具体的にはCPU(Central Processing Unit)等の演算処理装置によって構成されており、マイク10を通じて入力された音声(音声信号)を処理する。制御部20は、音声取得部21と、第二終話判定部22と、音声認識部23と、第一終話判定部24と、を備えている。 The microphone 10 collects the voice spoken by the user and outputs the voice signal to the voice acquisition unit 21 of the control unit 20. Specifically, the control unit (processor) 20 is composed of an arithmetic processing unit such as a CPU (Central Processing Unit), and processes voice (voice signal) input through the microphone 10. The control unit 20 includes a voice acquisition unit 21, a second end-of-call determination unit 22, a voice recognition unit 23, and a first end-of-call determination unit 24.

音声取得部21は、マイク10から入力される時系列の音声信号をデジタル化することにより、音声データを生成する。そして、音声取得部21は、生成した音声データを音声バッファ30に蓄積する。また、音声取得部21は、必要に応じて、音声バッファ30に蓄積された音声データを、第二終話判定部22および音声認識部23に出力する。 The voice acquisition unit 21 generates voice data by digitizing a time-series voice signal input from the microphone 10. Then, the voice acquisition unit 21 stores the generated voice data in the voice buffer 30. Further, the voice acquisition unit 21 outputs the voice data stored in the voice buffer 30 to the second end-of-call determination unit 22 and the voice recognition unit 23, if necessary.

第二終話判定部22は、第二の終話判定を行う。第二終話判定部22は、具体的には、ユーザからの音声が入力されない期間である無音期間が、予め設定された第二閾値期間を経過したか否かを判定する。そして、第二終話判定部22は、無音期間が第二閾値期間を経過したときに第二段階目の終話判定(第二の終話判定)を行う。前記した「第二閾値期間」とは、ユーザが完全に終話したか否かを判定するための閾値として用いられる期間である。第二閾値期間は、前記した第一閾値期間よりも長く、例えば第一閾値期間に対して、第一の終話判定と第二の終話判定との間の期間(例えば1秒)を足し合わせた長さに設定される(図3参照)。 The second end-of-call determination unit 22 makes a second end-of-call determination. Specifically, the second end-of-call determination unit 22 determines whether or not the silent period, which is a period during which no voice from the user is input, has elapsed a preset second threshold period. Then, the second end-of-call determination unit 22 makes a second-stage end-of-call determination (second end-of-call determination) when the silence period elapses from the second threshold period. The above-mentioned "second threshold period" is a period used as a threshold for determining whether or not the user has completely finished speaking. The second threshold period is longer than the above-mentioned first threshold period, for example, the period between the first end-of-call determination and the second end-end determination (for example, 1 second) is added to the first threshold period. It is set to the combined length (see FIG. 3).

音声認識部23は、自動音声認識(ASR:Automatic Speech Recognition)処理(以下、「認識処理」という)を行う音声認識エンジンである。音声認識部23は、無音期間が第一閾値期間を経過したときに認識処理を開始する。すなわち、音声認識部23は、第一終話判定部24によって第一の終話判定が行われたときに認識処理を開始する。 The speech recognition unit 23 is a speech recognition engine that performs automatic speech recognition (ASR: Automatic Speech Recognition) processing (hereinafter referred to as "recognition processing"). The voice recognition unit 23 starts the recognition process when the silence period elapses from the first threshold value period. That is, the voice recognition unit 23 starts the recognition process when the first end-of-call determination is made by the first end-of-call determination unit 24.

ここで、従来の音声認識方法では、図2に示すように、無音期間が所定の閾値期間(例えば1秒)を経過したときに終話判定を行い、この終話判定が行われた時点から認識処理を開始していた。すなわち、従来の音声認識方法では、終話判定と認識処理とをシーケンシャル(順次的)に処理しているため、ユーザの待ち時間が長くなるという問題があった。 Here, in the conventional voice recognition method, as shown in FIG. 2, the end-of-call determination is performed when the silence period elapses from a predetermined threshold period (for example, 1 second), and from the time when the end-of-call determination is performed. The recognition process was started. That is, in the conventional voice recognition method, since the end-of-call determination and the recognition process are sequentially processed (sequentially), there is a problem that the waiting time of the user becomes long.

一方、本実施形態に係る音声認識装置1では、図3に示すように、無音期間が従来の閾値期間よりも短い第一閾値期間を経過したときに第一の終話判定を行い、この第一の終話判定が行われた時点から認識処理を開始する。すなわち、本実施形態に係る音声認識装置1では、従来の音声認識方法よりも認識処理を早期に開始し、終話判定と認識処理とを並列的に処理することにより、ユーザの待ち時間の短縮化を図る。 On the other hand, in the voice recognition device 1 according to the present embodiment, as shown in FIG. 3, when the first threshold period in which the silence period is shorter than the conventional threshold period elapses, the first end-of-call determination is performed, and this first determination is made. The recognition process is started from the time when one end-of-call determination is made. That is, in the voice recognition device 1 according to the present embodiment, the recognition process is started earlier than the conventional voice recognition method, and the end-of-call determination and the recognition process are processed in parallel, thereby shortening the waiting time of the user. Aim for conversion.

なお、音声認識部23は、第一閾値期間の経過後、かつ第二閾値期間の経過前に無音期間が終了した場合、例えば図3のA時点で無音期間が終了した場合、認識処理を中断する。すなわち、本実施形態に係る音声認識装置1では、認識処理を一旦開始したとしても、第二閾値期間の経過前にユーザが発話した場合は、認識処理を中断する。 The voice recognition unit 23 interrupts the recognition process when the silence period ends after the lapse of the first threshold period and before the lapse of the second threshold period, for example, when the silence period ends at the time point A in FIG. do. That is, in the voice recognition device 1 according to the present embodiment, even if the recognition process is started once, if the user speaks before the lapse of the second threshold period, the recognition process is interrupted.

第一終話判定部24は、第一の終話判定を行う。第一終話判定部24は、具体的には、ユーザからの音声が入力されない期間である無音期間が、予め設定された第一閾値期間を経過したか否かを判定する。そして、第一終話判定部24は、無音期間が第一閾値期間を経過したときに第一段階目の終話判定(第一の終話判定)を行う。前記した「第一閾値期間」とは、ユーザが完全に終話したか否かの判定(第二の終話判定)の前に、ユーザが仮に終話した否かを判定するための閾値として用いられる期間である。第一閾値期間は、後記する第二閾値期間よりも短く、例えば第二閾値期間から、第一の終話判定と第二の終話判定との間の期間(例えば1秒)を差し引いた長さに設定される(後記する図3参照)。 The first end-of-speech determination unit 24 makes the first end-of-speech determination. Specifically, the first end-of-call determination unit 24 determines whether or not the silence period, which is the period during which no voice from the user is input, has elapsed the preset first threshold value period. Then, the first end-of-call determination unit 24 makes the end-of-call determination (first end-of-call determination) in the first stage when the silence period elapses from the first threshold value period. The above-mentioned "first threshold period" is used as a threshold value for determining whether or not the user has tentatively ended the call before determining whether or not the user has completely terminated the call (second end-of-call determination). It is a period to be. The first threshold period is shorter than the second threshold period described later, for example, the length obtained by subtracting the period (for example, 1 second) between the first end-of-call determination and the second end-end determination from the second threshold period. It is set to the threshold value (see FIG. 3 described later).

音声バッファ30は、例えばHDD(Hard Disk Drive)、ROM(Read Only Memory)、RAM(Random access memory)等により構成されている。音声バッファ30は、音声取得部21が生成した音声データを一時的に蓄積する。 The audio buffer 30 is composed of, for example, an HDD (Hard Disk Drive), a ROM (Read Only Memory), a RAM (Random access memory), or the like. The voice buffer 30 temporarily stores the voice data generated by the voice acquisition unit 21.

[音声認識方法]
以下、本実施形態に係る音声認識装置1による音声認識方法の具体的な実施例について、図4および図5を参照しながら説明する。なお、以下の説明では、マイク10、音声取得部21、第二終話判定部22および音声バッファ30における処理をクライアント側の処理として説明し、音声認識部23および第一終話判定部24における処理を認識エンジン側の処理として説明する。また、図4および図5における左側の「ユーザ操作」は、ユーザ側の行動を示している。
[Voice recognition method]
Hereinafter, specific examples of the voice recognition method by the voice recognition device 1 according to the present embodiment will be described with reference to FIGS. 4 and 5. In the following description, the processing in the microphone 10, the voice acquisition unit 21, the second end call determination unit 22, and the voice buffer 30 will be described as the client-side processing, and the voice recognition unit 23 and the first end call determination unit 24 will be described. The process will be described as a process on the recognition engine side. Further, the "user operation" on the left side in FIGS. 4 and 5 indicates an action on the user side.

(第一の実施例)
図4は、音声認識装置1に対して、ユーザが一つの文章(「佐藤さんに電話して」)を、間を開けずに一度に発話した場合における認識処理の流れを示している。まず、ユーザによってPTT(Push to Talk)がなされると(ステップS1)、認識エンジン側の音声認識部23は発話待ち状態となる(ステップS2)。
(First Example)
FIG. 4 shows the flow of the recognition process when the user utters one sentence (“call Mr. Sato”) at once to the voice recognition device 1 without a gap. First, when PTT (Push to Talk) is performed by the user (step S1), the voice recognition unit 23 on the recognition engine side is in an utterance waiting state (step S2).

続いて、ユーザが「佐藤さんに電話して」という発話を開始すると(ステップS3)、クライアント側の音声取得部21は、音声バッファ30への音声データの蓄積を開始する(ステップS4)。それと同時に、認識エンジン側の音声認識部23は、発話を検知する(ステップS5)。 Subsequently, when the user starts uttering "Call Mr. Sato" (step S3), the voice acquisition unit 21 on the client side starts accumulating voice data in the voice buffer 30 (step S4). At the same time, the voice recognition unit 23 on the recognition engine side detects the utterance (step S5).

続いて、ユーザの発話が終了し(ステップS6)、第一閾値期間が経過すると、認識エンジン側の第一終話判定部24は、終話検知(第一の終話判定)を行う(ステップS7)。これを受けて、音声認識部23は、音声バッファ30から音声データを読み込み、認識処理を開始する(ステップS8)。また、第一終話判定部24は、終話検知(第一の終話判定)後にその検知結果をクライアント側の第二終話判定部22に送信する(ステップS9)。これを受けて、第二終話判定部22は完全終話待ちとなる(ステップS10)。 Subsequently, when the user's utterance is completed (step S6) and the first threshold period elapses, the first end-of-call determination unit 24 on the recognition engine side performs end-of-call detection (first end-of-call determination) (step). S7). In response to this, the voice recognition unit 23 reads the voice data from the voice buffer 30 and starts the recognition process (step S8). Further, the first end-of-call determination unit 24 transmits the detection result to the second end-of-call determination unit 22 on the client side after the end-of-call determination (first end-of-call determination) (step S9). In response to this, the second end-of-call determination unit 22 waits for the complete end of the call (step S10).

続いて、ユーザの発話終了から第二閾値期間が経過すると、クライアント側の第二終話判定部22は、完全終話検知(第二の終話判定)を行う(ステップS11)。その後、音声認識部23における認識処理が終了すると、音声認識部23は、その認識結果をクライアント側に送信する(ステップS12)。 Subsequently, when the second threshold period elapses from the end of the user's utterance, the second end-of-call determination unit 22 on the client side performs complete end-of-call detection (second end-of-call determination) (step S11). After that, when the recognition process in the voice recognition unit 23 is completed, the voice recognition unit 23 transmits the recognition result to the client side (step S12).

(第二の実施例)
図5は、音声認識装置1に対して、ユーザが複数の文章(「近くで探す」)および単語(「コンビニエンスストア」)を、間を開けながら発話した場合の音声認識処理の流れを示すタイムチャートである。まず、ユーザによってPTT(Push to Talk)がなされると(ステップS21)、認識エンジン側の音声認識部23は発話待ち状態となる(ステップS22)。
(Second Example)
FIG. 5 shows a time showing a flow of voice recognition processing when a user speaks a plurality of sentences (“search nearby”) and words (“convenience store”) with respect to the voice recognition device 1 with a gap. It is a chart. First, when PTT (Push to Talk) is performed by the user (step S21), the voice recognition unit 23 on the recognition engine side is in an utterance waiting state (step S22).

続いて、ユーザが「近くで探す」という発話を開始すると(ステップS23)、クライアント側の音声取得部21は、音声バッファ30への音声データの蓄積を開始する(ステップS24)。それと同時に、認識エンジン側の音声認識部23は、発話を検知する(ステップS25)。 Subsequently, when the user starts the utterance "search nearby" (step S23), the voice acquisition unit 21 on the client side starts accumulating voice data in the voice buffer 30 (step S24). At the same time, the voice recognition unit 23 on the recognition engine side detects the utterance (step S25).

続いて、ユーザの発話が途切れ(ステップS26)、第一閾値期間が経過すると、認識エンジン側の第一終話判定部24は、終話検知(第一の終話判定)を行う(ステップS27)。これを受けて、音声認識部23は、音声バッファ30から音声データを読み込み、認識処理を開始する(ステップS28)。また、第一終話判定部24は、終話検知(第一の終話判定)後にその検知結果をクライアント側の第二終話判定部22に送信する(ステップS29)。これを受けて、第二終話判定部22は完全終話待ちとなる(ステップS30)。 Subsequently, when the user's utterance is interrupted (step S26) and the first threshold period elapses, the first end-of-call determination unit 24 on the recognition engine side performs end-of-call detection (first end-of-call determination) (step S27). ). In response to this, the voice recognition unit 23 reads the voice data from the voice buffer 30 and starts the recognition process (step S28). Further, the first end-of-call determination unit 24 transmits the detection result to the second end-of-call determination unit 22 on the client side after the end-of-call detection (first end-of-call determination) (step S29). In response to this, the second end-of-call determination unit 22 waits for the complete end of the call (step S30).

続いて、ユーザの発話が再開され、ユーザが「コンビニエンスストア」という発話を開始すると(ステップS31)、クライアント側の音声取得部21は、発話を再検知する(ステップS32)。そして、音声取得部21は、認識エンジン側の音声認識部23に対して認識処理中断の指示を送信する(ステップS33)。これを受けて、音声認識部23は、音声認識を中断する。また、音声取得部21は、音声認識部23に対して、音声バッファ30に蓄積された音声データを送信する(ステップS34)。 Subsequently, when the user's utterance is resumed and the user starts the utterance of "convenience store" (step S31), the voice acquisition unit 21 on the client side re-detects the utterance (step S32). Then, the voice acquisition unit 21 transmits an instruction to interrupt the recognition process to the voice recognition unit 23 on the recognition engine side (step S33). In response to this, the voice recognition unit 23 interrupts the voice recognition. Further, the voice acquisition unit 21 transmits the voice data stored in the voice buffer 30 to the voice recognition unit 23 (step S34).

続いて、ユーザの発話が終了し(ステップS35)、第一閾値期間が経過すると、認識エンジン側の第一終話判定部24は、終話検知(第一の終話判定)を行う(ステップS36)。これを受けて、音声認識部23は、音声バッファ30から音声データを読み込み、認識処理を開始する(ステップS37)。また、第一終話判定部24は、終話検知(第一の終話判定)後にその検知結果をクライアント側の第二終話判定部22に送信する(ステップS38)。これを受けて、第二終話判定部22は完全終話待ちとなる(ステップS39)。 Subsequently, when the user's utterance is completed (step S35) and the first threshold period elapses, the first end-of-call determination unit 24 on the recognition engine side performs end-of-call detection (first end-of-call determination) (step). S36). In response to this, the voice recognition unit 23 reads the voice data from the voice buffer 30 and starts the recognition process (step S37). Further, the first end-of-call determination unit 24 transmits the detection result to the second end-of-call determination unit 22 on the client side after the end-of-call detection (first end-of-call determination) (step S38). In response to this, the second end-of-call determination unit 22 waits for the complete end of the call (step S39).

続いて、ユーザの発話終了から第二閾値期間が経過すると、クライアント側の第二終話判定部22は、完全終話検知(第二の終話判定)を行う(ステップS40)。その後、音声認識部23における認識処理が終了すると、音声認識部23は、その認識結果をクライアント側に送信する(ステップS41)。 Subsequently, when the second threshold period elapses from the end of the user's utterance, the second end-of-call determination unit 22 on the client side performs complete end-of-call detection (second end-of-call determination) (step S40). After that, when the recognition process in the voice recognition unit 23 is completed, the voice recognition unit 23 transmits the recognition result to the client side (step S41).

以上説明したような音声認識装置1によれば、認識処理における終話判定を二段階に分け、通常の長さの終話判定(第二の終話判定)よりも前に短時間での終話判定(第一の終話判定)を実施することにより、認識処理を早期に開始することができる。 According to the voice recognition device 1 as described above, the end-of-call determination in the recognition process is divided into two stages, and the end-of-call determination in a short time is performed before the end-of-call determination of a normal length (second end-end determination). By carrying out the talk determination (first end-of-speech determination), the recognition process can be started at an early stage.

すなわち、音声認識装置1によれば、認識処理を開始する第一閾値期間が、終話判定を行う第二閾値期間よりも短いため、終話判定を待つことなく認識処理が開始される。従って、音声認識装置1によれば、終話判定を待つことなく音声認識処理を開始するため、音声認識処理におけるユーザの待ち時間を短縮することができ、音声認識処理のレスポンスを向上させることができる。 That is, according to the voice recognition device 1, since the first threshold period for starting the recognition process is shorter than the second threshold period for determining the end of call, the recognition process is started without waiting for the end of call determination. Therefore, according to the voice recognition device 1, since the voice recognition process is started without waiting for the end call determination, the waiting time of the user in the voice recognition process can be shortened, and the response of the voice recognition process can be improved. can.

[音声認識プログラム]
本実施形態に係る音声認識プログラムは、コンピュータを、前記した制御部20の各部(各手段)として機能させたものである。音声対話プログラムは、例えばハードディスク、フレキシブルディスク、CD-ROM等の、コンピュータで読み取り可能な記録媒体に格納して配布してもよく、あるいは、ネットワークを介して流通させてもよい。
[Voice recognition program]
In the voice recognition program according to the present embodiment, the computer is made to function as each part (each means) of the control unit 20 described above. The voice dialogue program may be stored and distributed in a computer-readable recording medium such as a hard disk, a flexible disk, or a CD-ROM, or may be distributed via a network.

以上、本発明に係る音声認識装置について、発明を実施するための形態により具体的に説明したが、本発明の趣旨はこれらの記載に限定されるものではなく、特許請求の範囲の記載に基づいて広く解釈されなければならない。また、これらの記載に基づいて種々変更、改変等したものも本発明の趣旨に含まれることはいうまでもない。 The voice recognition device according to the present invention has been specifically described above in terms of the mode for carrying out the invention, but the purpose of the present invention is not limited to these descriptions, but is based on the description of the scope of claims. Must be widely interpreted. Needless to say, various changes, modifications, etc. based on these descriptions are also included in the gist of the present invention.

1 音声認識装置
10 マイク
20 制御部
21 音声取得部
22 第二終話判定部
23 音声認識部
24 第一終話判定部
30 音声バッファ
1 Voice recognition device 10 Microphone 20 Control unit 21 Voice acquisition unit 22 Second end-of-speech judgment unit 23 Voice recognition unit 24 First end-of-speech judgment unit 30 Voice buffer

Claims (2)

入力された音声を処理する制御部を備えた音声認識装置であって、
前記制御部は、
前記音声が入力されない期間である無音期間が第二閾値期間を経過したときに終話判定を行い、
前記無音期間が前記第二閾値期間よりも短い第一閾値期間を経過したときに音声認識処理を開始する、
音声認識装置。
A voice recognition device equipped with a control unit that processes input voice.
The control unit
When the silence period, which is the period during which no voice is input, elapses from the second threshold period, the end-of-call determination is performed.
The voice recognition process is started when the first threshold period shorter than the second threshold period elapses.
Speech recognition device.
前記制御部は、前記第一閾値期間の経過後、かつ前記第二閾値期間の経過前に前記無音期間が終了した場合、前記音声認識処理を中断する請求項1に記載の音声認識装置。 The voice recognition device according to claim 1, wherein the control unit interrupts the voice recognition process when the silence period ends after the lapse of the first threshold period and before the lapse of the second threshold period.
JP2018216852A 2018-11-19 2018-11-19 Speech recognition device Active JP7035979B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018216852A JP7035979B2 (en) 2018-11-19 2018-11-19 Speech recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018216852A JP7035979B2 (en) 2018-11-19 2018-11-19 Speech recognition device

Publications (2)

Publication Number Publication Date
JP2020086006A JP2020086006A (en) 2020-06-04
JP7035979B2 true JP7035979B2 (en) 2022-03-15

Family

ID=70907947

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018216852A Active JP7035979B2 (en) 2018-11-19 2018-11-19 Speech recognition device

Country Status (1)

Country Link
JP (1) JP7035979B2 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091489A (en) 2000-09-13 2002-03-27 Alpine Electronics Inc Voice recognition device
JP2008083375A (en) 2006-09-27 2008-04-10 Toshiba Corp Voice interval detecting apparatus and program

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10240290A (en) * 1996-12-27 1998-09-11 N T T Data Tsushin Kk Method and system for speech recognition, and record medium

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091489A (en) 2000-09-13 2002-03-27 Alpine Electronics Inc Voice recognition device
JP2008083375A (en) 2006-09-27 2008-04-10 Toshiba Corp Voice interval detecting apparatus and program

Also Published As

Publication number Publication date
JP2020086006A (en) 2020-06-04

Similar Documents

Publication Publication Date Title
US9330667B2 (en) Method and system for endpoint automatic detection of audio record
US9015048B2 (en) Incremental speech recognition for dialog systems
JP2013527490A (en) Smart audio logging system and method for mobile devices
JP2012501480A (en) Hybrid speech recognition
JP2008256802A (en) Voice recognition device and voice recognition method
JP6459330B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition program
JP6827536B2 (en) Voice recognition device and voice recognition method
JP2009122598A (en) Electronic device, control method of electronic device, speech recognition device, speech recognition method and speech recognition program
WO2018135276A1 (en) Speech and behavior control device, robot, control program, and control method for speech and behavior control device
JP2009175179A (en) Speech recognition device, program and utterance signal extraction method
US10896677B2 (en) Voice interaction system that generates interjection words
JP4491438B2 (en) Voice dialogue apparatus, voice dialogue method, and program
JP7035979B2 (en) Speech recognition device
US20170140751A1 (en) Method and device of speech recognition
JP6673243B2 (en) Voice recognition device
JP4791857B2 (en) Utterance section detection device and utterance section detection program
JP5375423B2 (en) Speech recognition system, speech recognition method, and speech recognition program
KR101368464B1 (en) Apparatus of speech recognition for speech data transcription and method thereof
JP3916861B2 (en) Voice recognition device
JP5074759B2 (en) Dialog control apparatus, dialog control method, and dialog control program
JP2001343983A (en) Voice starting point detection method, voice recognition device and voice segment detection method for the device
JP2019132997A (en) Voice processing device, method and program
JP6748565B2 (en) Voice dialogue system and voice dialogue method
JP4724943B2 (en) Voice recognition device
JP7007616B2 (en) Training data generator, training data generation method and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210420

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220128

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220214

R151 Written notification of patent or utility model registration

Ref document number: 7035979

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151