JP2011248025A - Channel integration method, channel integration device, and program - Google Patents

Channel integration method, channel integration device, and program Download PDF

Info

Publication number
JP2011248025A
JP2011248025A JP2010119853A JP2010119853A JP2011248025A JP 2011248025 A JP2011248025 A JP 2011248025A JP 2010119853 A JP2010119853 A JP 2010119853A JP 2010119853 A JP2010119853 A JP 2010119853A JP 2011248025 A JP2011248025 A JP 2011248025A
Authority
JP
Japan
Prior art keywords
channel
audio
digital signal
signal
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010119853A
Other languages
Japanese (ja)
Other versions
JP5411807B2 (en
Inventor
Satoru Kobashigawa
哲 小橋川
Sumitaka Sakauchi
澄宇 阪内
Yoshikazu Yamaguchi
義和 山口
Hirokazu Masataki
浩和 政瀧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010119853A priority Critical patent/JP5411807B2/en
Publication of JP2011248025A publication Critical patent/JP2011248025A/en
Application granted granted Critical
Publication of JP5411807B2 publication Critical patent/JP5411807B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To provide a channel integration method, a channel integration device, and a program, which performs voice recognition in a selected channel by selecting one channel suitable for the voice recognition among the multiple channels.SOLUTION: The channel integration device includes: a voice input part 12 for inputting voice signals by each channel and outputting voice digital signals; a power calculation part 21 for inputting the voice digital signals by each channel and outputting power values; a channel selection part 22 for inputting the voice digital signals and the power values by each channel and outputting the voice digital signal of the channel with the maximum power value as an output voice digital signal; a voice recognition part 23 for outputting a recognition result text with the output voice digital signal, an acoustic model, and a language model as inputs; a voice signal preservation part 25 for inputting the output voice digital signal and outputting preservation voice signal file information; and a voice/text preservation part 26 for associating the preservation voice signal file information with the recognition result text so as to preserve them.

Description

本発明は、複数のチャネルから音声認識に適した1のチャネルを選択して、選択されたチャネルの音声ディジタル信号の音声認識を行うチャネル統合方法、チャネル統合装置、プログラムに関する。   The present invention relates to a channel integration method, a channel integration apparatus, and a program for selecting one channel suitable for voice recognition from a plurality of channels and performing voice recognition of a voice digital signal of the selected channel.

複数チャネルにおける通話(音声)区間検出装置として、例えば特許文献1、2が知られている。特許文献1の通話区間検出装置は、複数の通話端末装置間で行われる通話の通話区間を正確に推定することを目的とする。詳細には、特許文献1の通話区間検出装置は、送話側チャネルの音声信号と受話側チャネルの音声信号とを入力とし、当該入力された2チャネルについて音声区間と、非音声区間とを検出する。当該検出された2チャネルの音声区間と、非音声区間との情報を用いて、通話区間を検出する。また、特許文献2の音声区間検出装置も複数チャネルの入力信号について、音声区間を推定することを目的としており、引用文献1と同様である。詳細には、特許文献2の音声区間検出装置は、各チャネルの入力信号をフレーム化して、フレーム単位でメモリに記憶する。各チャネルについてメモリに記憶された入力信号サンプルについて、この信号サンプルが音声区間のものであるか、非音声区間のものであるかを判定した結果(VADフラグ)を出力する。各VADフラグについて、一つでも音声区間であることを示すものが存在すれば統合検出結果を音声区間であることを示すものとし、全て非音声区間であることを示すものであれば統合検出結果を非音声区間であることを示すものとして、統合検出結果と音声区間の始端時刻を出力する。   For example, Patent Documents 1 and 2 are known as a speech (voice) section detecting device in a plurality of channels. The call section detection device of Patent Document 1 is intended to accurately estimate a call section of a call performed between a plurality of call terminal devices. Specifically, the speech section detection apparatus of Patent Document 1 receives a voice signal of a transmission side channel and a voice signal of a reception side channel as input, and detects a voice section and a non-voice section for the two input channels. To do. A speech section is detected using information on the detected two-channel voice section and non-voice section. The speech section detection apparatus of Patent Document 2 is also intended to estimate a speech section for a plurality of channel input signals, and is the same as that of Cited Document 1. Specifically, the speech segment detection apparatus disclosed in Patent Document 2 converts the input signal of each channel into frames and stores them in a memory in units of frames. For the input signal sample stored in the memory for each channel, the result (VAD flag) of determining whether this signal sample is in the voice interval or non-voice interval is output. For each VAD flag, if there is at least one indicating that it is a speech section, the integrated detection result indicates that it is a speech section, and if all indicate that it is a non-speech section, the integrated detection result Is the non-speech section, and the integrated detection result and the start time of the speech section are output.

特開2008−216273号公報JP 2008-216273 A 特開2009−031604号公報JP 2009-031604 A

前述のように、従来技術では複数のチャネルの通話(音声)区間のみを抽出し、単一チャネルへの統合処理を行っていなかった(図1参照)。前述の従来技術では、各チャネルに通話音声のように全く異なる音声信号が入力されている場合には問題とはならない。しかしながら、例えば会議における質疑応答などにおいて同一の室内に複数のチャネルが存在しており、議論が行われるなどして複数の話者が同時に発話しているような状況では、主たる話者のチャネルとは別のチャネルに、主たる話者とは別の話者の発声や雑音などが混入したり、スピーカからの回り込み音声が混入したりすることにより、音声認識精度が劣化するという課題がある。また、従来技術では、単一チャネルへの統合処理を行わないため、複数チャネルのそれぞれについて音声認識を行う必要があり、音声認識に要する計算量が大きく、音声認識に要する時間も長くなるという課題がある。また、主たる話者の同一発声内容について回り込みが発生し別のチャネルに入力される場合、音声認識処理後に音声認識結果を統合する処理がさらに必要となり、処理量が増大するという課題がある。加えて、前記複数のチャネルからの入力音声信号を、音声認識用の音響モデル学習に用いる場合、予めどのチャネルの入力音声信号を音響モデル学習に用いるかを人手でラベル付けをする必要があり、ラベル付けの手間が大きくなるという課題がある。   As described above, in the prior art, only the communication (voice) sections of a plurality of channels are extracted, and integration processing into a single channel is not performed (see FIG. 1). In the above-described prior art, there is no problem when a completely different audio signal is input to each channel like a call voice. However, for example, in a situation where there are multiple channels in the same room, such as in a question-and-answer session in a conference, and multiple speakers speak at the same time due to discussions etc., the channel of the main speaker However, there is a problem that voice recognition accuracy deteriorates due to mixing of voices or noises of a speaker other than the main speaker into a different channel, or mixing of sneak sound from a speaker. In addition, since the conventional technology does not perform integration processing into a single channel, it is necessary to perform speech recognition for each of a plurality of channels, which requires a large amount of calculation for speech recognition and a long time for speech recognition. There is. In addition, when the main speaker's same utterance content is circulated and input to another channel, further processing for integrating the speech recognition results after the speech recognition processing is required, which increases the amount of processing. In addition, an input audio signal from the plurality of channels, when using the acoustic model training for speech recognition, it is necessary to labeling or using an input audio signal in advance which channel the acoustic model learning manually, There is a problem that the labor of labeling becomes large.

本発明では、複数のチャネルから音声認識に適した1のチャネルを選択して、音声認識を行うことができるチャネル統合装置が提供される。本発明のチャネル統合装置は、音声入力部と、パワー計算部と、チャネル選択部と、音声認識部と、音声信号保存部と、音声/テキスト保存部とを備える。   The present invention provides a channel integration device that can perform speech recognition by selecting one channel suitable for speech recognition from a plurality of channels. The channel integration apparatus of the present invention includes a voice input unit, a power calculation unit, a channel selection unit, a voice recognition unit, a voice signal storage unit, and a voice / text storage unit.

音声入力部は、チャネルごとの音声信号を入力とし、当該音声信号をアナログ−ディジタル変換により、チャネルごとに音声ディジタル信号に変換して出力する。前記パワー計算部は、前記チャネルごとの音声ディジタル信号を入力とし、当該音声ディジタル信号のパワー値をチャネルごとに計算して出力する。前記チャネル選択部は、前記チャネルごとの音声ディジタル信号と、前記チャネルごとのパワー値とを入力とし、当該パワー値が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力する。前記音声認識部は、前記出力音声ディジタル信号と、音響モデルと、言語モデルとを入力とし、音声認識処理を行って認識結果テキストを生成し、当該認識結果テキストを時間情報と対応付けて出力する。前記音声信号保存部は、前記出力音声ディジタル信号を入力とし、当該出力音声ディジタル信号を保存して保存音声信号ファイル情報を生成し、当該保存音声信号ファイル情報を時間情報と対応付けて出力する。前記音声/テキスト保存部は、前記保存音声信号ファイル情報と、前記認識結果テキストと、前記時間情報とを入力とし、前記時間情報を用いて、前記保存音声信号ファイル情報と前記認識結果テキストとを対応付けて保存する。   The voice input unit receives a voice signal for each channel, converts the voice signal into a voice digital signal for each channel by analog-digital conversion, and outputs the voice digital signal. The power calculation unit receives the audio digital signal for each channel as input, and calculates and outputs the power value of the audio digital signal for each channel. The channel selection unit receives an audio digital signal for each channel and a power value for each channel, selects an audio digital signal for a channel having the maximum power value, and outputs the selected signal as an output audio digital signal . The speech recognition unit receives the output speech digital signal, an acoustic model, and a language model, performs speech recognition processing to generate a recognition result text, and outputs the recognition result text in association with time information. . The voice signal storage unit receives the output voice digital signal, saves the output voice digital signal, generates saved voice signal file information, and outputs the saved voice signal file information in association with time information. The speech / text storage unit receives the stored speech signal file information, the recognition result text, and the time information, and uses the time information to store the stored speech signal file information and the recognition result text. Save in association.

以上のように本発明のチャネル統合装置は、音声認識に適した単一チャネルのみを音声認識に用いるため、別のチャネルに回り込む雑音の影響を受けることなく音声認識の精度を高めることができる。また、単一チャネルのみを音声認識に用いるため、音声認識に要する計算量を少なくすることができ、音声認識に要する時間も削減できる。また、単一チャネルのみを音声認識に用いるため、音声認識処理後に音声認識結果を統合する処理が不必要となり、処理量の増大を避けることができる。加えて、音声認識に適した1のチャネルが自動的に選択されるため、音声認識用の音響モデル学習に用いる場合、ラベル付けが不必要となり、ラベル付けのコストを削減することができる。   As described above, since the channel integration apparatus of the present invention uses only a single channel suitable for speech recognition for speech recognition, the accuracy of speech recognition can be improved without being affected by noise that wraps around another channel. Further, since only a single channel is used for speech recognition, the amount of calculation required for speech recognition can be reduced, and the time required for speech recognition can be reduced. Moreover, since only a single channel is used for speech recognition, processing for integrating speech recognition results after speech recognition processing is unnecessary, and an increase in processing amount can be avoided. In addition, since one channel suitable for speech recognition is automatically selected, labeling becomes unnecessary when used for acoustic model learning for speech recognition, and the labeling cost can be reduced.

従来例を説明する図。The figure explaining a prior art example. 実施例1にかかるチャネル統合装置の構成を示すブロック図。1 is a block diagram showing a configuration of a channel integration device according to Embodiment 1. FIG. 実施例1にかかるチャネル統合装置の動作を示すフローチャート。3 is a flowchart illustrating the operation of the channel integration device according to the first embodiment. 実施例2にかかるチャネル統合装置の構成を示すブロック図。FIG. 6 is a block diagram showing a configuration of a channel integration device according to Embodiment 2. 実施例2にかかるチャネル統合装置の動作を示すフローチャート。9 is a flowchart showing the operation of the channel integration apparatus according to the second embodiment. 実施例3にかかるチャネル統合装置の構成を示すブロック図。FIG. 9 is a block diagram illustrating a configuration of a channel integration device according to a third embodiment. 実施例3にかかるチャネル統合装置の動作を示すフローチャート。10 is a flowchart illustrating the operation of the channel integration device according to the third embodiment. 実施例4にかかるチャネル統合装置の構成を示すブロック図。FIG. 9 is a block diagram illustrating a configuration of a channel integration device according to a fourth embodiment. 実施例4にかかるチャネル統合装置の動作を示すフローチャート。10 is a flowchart illustrating the operation of the channel integration device according to the fourth embodiment. 実施例5にかかるチャネル統合装置の構成を示すブロック図。FIG. 10 is a block diagram illustrating a configuration of a channel integration device according to a fifth embodiment. 実施例5にかかるチャネル統合装置の動作を示すフローチャート。10 is a flowchart illustrating the operation of the channel integration device according to the fifth embodiment. 実施例6にかかるチャネル統合装置の構成を示すブロック図。FIG. 10 is a block diagram showing a configuration of a channel integration device according to Embodiment 6; 実施例6にかかるチャネル統合装置の動作を示すフローチャート。10 is a flowchart illustrating the operation of the channel integration device according to the sixth embodiment. 実施例6にかかるチャネル統合装置のマージン処理手段の処理例を示す図。FIG. 10 is a diagram illustrating a processing example of a margin processing unit of the channel integration device according to the sixth embodiment; 実施例7にかかるチャネル統合装置の構成を示すブロック図。FIG. 10 is a block diagram illustrating a configuration of a channel integration device according to a seventh embodiment. 実施例7にかかるチャネル統合装置の動作を示すフローチャート。10 is a flowchart showing the operation of the channel integration device according to the seventh embodiment.

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。   Hereinafter, embodiments of the present invention will be described in detail. In addition, the same number is attached | subjected to the structure part which has the same function, and duplication description is abbreviate | omitted.

図2、3を参照して本発明の実施例1にかかるチャネル統合装置および、チャネル統合方法を説明する。図2に示す本発明の実施例1にかかるチャネル統合装置20は、音声入力部12と、パワー計算部21と、チャネル選択部22と、音声認識部23と、音響/言語モデルデータベース24と、音声信号保存部25と、音声/テキスト保存部26とを備える。   A channel integration apparatus and a channel integration method according to Embodiment 1 of the present invention will be described with reference to FIGS. A channel integration device 20 according to the first embodiment of the present invention shown in FIG. 2 includes a voice input unit 12, a power calculation unit 21, a channel selection unit 22, a voice recognition unit 23, an acoustic / language model database 24, An audio signal storage unit 25 and an audio / text storage unit 26 are provided.

音声入力部12は、マイクロフォン11−1〜Jから、チャネルごとに音声信号を入力し、当該音声信号をアナログ−ディジタル変換により、チャネルごとに音声ディジタル信号に変換して出力する(S12)。以後、音声の入力時刻t、チャネル番号iの音声ディジタル信号をS(t)と表現する。パワー計算部21は、チャネルごとの音声ディジタル信号S(t)(i=1〜J)を入力とし、当該音声ディジタル信号のパワー値をチャネルごとに計算して出力する(S21)。パワー値はフレーム毎に計算されるものとし、音響分析条件は、例えば窓長20msec、シフト長10msecなどでよい。また、例えば300Hzから3.4kHzなどに帯域を制限してパワー値計算をすることとしてもよい。また、パワー値を対数化した値を以後の処理に用いることとしてもよいし、予め定めた幅で分割した周波数帯域(周波数bin)ごとにパワー値を比較して、パワー値が最大となる周波数binの数をパワー値の代わりに用いても良い。以後、フレーム番号n、チャネル番号iのパワー値をP(n)と表現することとする。n番目のフレーム開始時刻をt、窓長をTとした場合のフレーム番号n、チャネル番号iにおけるパワー値P(n)は例えば、下式により計算される。 The voice input unit 12 inputs voice signals for each channel from the microphones 11-1 to 11-J, converts the voice signals into voice digital signals for each channel by analog-digital conversion, and outputs them (S12). Hereinafter, a voice digital signal having a voice input time t and a channel number i is expressed as S i (t). The power calculator 21 receives the audio digital signal S i (t) (i = 1 to J) for each channel as input, and calculates and outputs the power value of the audio digital signal for each channel (S21). The power value is calculated for each frame, and the acoustic analysis conditions may be, for example, a window length of 20 msec and a shift length of 10 msec. For example, the power value may be calculated by limiting the band from 300 Hz to 3.4 kHz. In addition, a logarithmic value of the power value may be used for the subsequent processing, or the power value is compared for each frequency band (frequency bin) divided by a predetermined width, so that the power value becomes the maximum. The number of bins may be used instead of the power value. Hereinafter, the power value of the frame number n and the channel number i is expressed as P i (n). The power value P i (n) at the frame number n and the channel number i when the n-th frame start time is t s and the window length is T is calculated by the following equation, for example.

Figure 2011248025
Figure 2011248025

チャネル選択部22は、チャネルごとの音声ディジタル信号S(t)(i=1〜J)と、チャネルごとのパワー値P(n)(i=1〜J)とを入力とし、一定の値を越えた当該パワー値が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力する(S22)。例えば、チャネル番号jのパワー値P(n)が最大となる場合、つまり The channel selection unit 22 receives the audio digital signal S i (t) (i = 1 to J) for each channel and the power value P i (n) (i = 1 to J) for each channel as input. The audio digital signal of the channel having the maximum power value exceeding the value is selected and output as an output audio digital signal (S22). For example, when the power value P j (n) of the channel number j is maximum, that is,

Figure 2011248025
Figure 2011248025

である場合、チャネル番号jの音声ディジタル信号S(t)を選択して、出力音声ディジタル信号として出力する。なお、全てのチャネルでパワー値が一定の値を越えない無音となった場合には、何れのチャネルも選択されないものとし、出力音声ディジタル信号は0とする。ここで、一定の値とは、例えば背景雑音の音量レベルに対して3dBを加算したパワー値等を用いる。 , The audio digital signal S j (t) of channel number j is selected and output as an output audio digital signal. Note that if there is silence in which the power value does not exceed a certain value in all channels, none of the channels is selected and the output audio digital signal is 0. Here, for example, a power value obtained by adding 3 dB to the volume level of background noise is used as the constant value.

音声認識部23は、出力音声ディジタル信号と、音響モデルと、言語モデルとを入力とし、音声認識処理を行って認識結果テキストを生成し、当該認識結果テキストを時間情報と対応付けて出力する(S23)。音響モデル、言語モデルについては、予め音響/言語モデルデータベース24に記憶されているものとし、音声認識部23は、音響/言語モデルデータベース24から、音響モデル、言語モデルを取得して用いるものとする。音声認識処理には従来方法を用いることとすれば良く、従来方法であるため説明を略す。音声信号保存部25は、出力音声ディジタル信号を入力とし、当該出力音声ディジタル信号を保存して保存音声信号ファイル情報を生成し、当該保存音声信号ファイル情報を時間情報と対応付けて出力する(S25)。音声/テキスト保存部26は、保存音声信号ファイル情報と、認識結果テキストと、時間情報とを入力とし、時間情報を用いて、保存音声信号ファイル情報と認識結果テキストとを対応付けて保存する(S26)。   The speech recognition unit 23 receives the output speech digital signal, the acoustic model, and the language model, performs speech recognition processing, generates a recognition result text, and outputs the recognition result text in association with time information ( S23). The acoustic model and the language model are stored in advance in the acoustic / language model database 24, and the speech recognition unit 23 acquires and uses the acoustic model and the language model from the acoustic / language model database 24. . A conventional method may be used for the speech recognition processing, and since it is a conventional method, description thereof is omitted. The audio signal storage unit 25 receives the output audio digital signal, saves the output audio digital signal, generates stored audio signal file information, and outputs the stored audio signal file information in association with time information (S25). ). The voice / text storage unit 26 receives the stored voice signal file information, the recognition result text, and the time information, and stores the stored voice signal file information and the recognition result text in association with each other using the time information ( S26).

本発明の実施例1にかかるチャネル統合装置によれば、単一チャネルのみを音声認識に用いるため、別のチャネルに回り込む雑音の影響を受けることなく音声認識の精度を高めることができる。また、単一チャネルのみを音声認識に用いるため、音声認識に要する計算量を少なくすることができ、音声認識に要する時間も削減できる。また、単一チャネルのみを音声認識に用いるため、音声認識処理後に音声認識結果を統合する処理が不必要となり、処理量の増大を避けることができる。加えて、音声認識に適した1のチャネルが自動的に選択されるため、音声認識用の音響モデル学習に用いる場合、ラベル付けが不必要となり、ラベル付けのコストを削減することができる。   According to the channel integration apparatus according to the first embodiment of the present invention, since only a single channel is used for speech recognition, the accuracy of speech recognition can be improved without being affected by noise that wraps around another channel. Further, since only a single channel is used for speech recognition, the amount of calculation required for speech recognition can be reduced, and the time required for speech recognition can be reduced. Moreover, since only a single channel is used for speech recognition, processing for integrating speech recognition results after speech recognition processing is unnecessary, and an increase in processing amount can be avoided. In addition, since one channel suitable for speech recognition is automatically selected, labeling becomes unnecessary when used for acoustic model learning for speech recognition, and the labeling cost can be reduced.

図4、5を参照して本発明の実施例2にかかるチャネル統合装置および、チャネル統合方法を説明する。本実施例は、実施例1の変形例である。図4に示す本発明の実施例2にかかるチャネル統合装置40は、パワー正規化部41をさらに備える。この点のみが実施例1との相違点であるため、以下、実施例1との相違点のみを説明する。   A channel integration apparatus and a channel integration method according to Embodiment 2 of the present invention will be described with reference to FIGS. The present embodiment is a modification of the first embodiment. The channel integration device 40 according to the second embodiment of the present invention illustrated in FIG. Since this is the only difference from the first embodiment, only the difference from the first embodiment will be described below.

パワー正規化部41は、パワー計算部21から出力されたチャネルごとのパワー値P(n)(i=1〜J)を入力とし、当該パワー値の正規化パワー値をチャネルごとに計算して、チャネル選択部22に出力する(S41)。以後、チャネルごとの正規化パワー値をP'(n)(i=1〜J)と表現するものとし、総チャネル数Jを用いて、正規化パワー値P'(n)は以下の式にて計算することができる。なお、kは任意のチャネルを表すものとする。 The power normalization unit 41 receives the power value P i (n) (i = 1 to J) for each channel output from the power calculation unit 21, and calculates the normalized power value of the power value for each channel. Is output to the channel selector 22 (S41). Hereinafter, the normalized power value for each channel is expressed as P ′ i (n) (i = 1 to J), and the normalized power value P ′ i (n) is expressed as follows using the total number of channels J. It can be calculated by the formula. Note that k represents an arbitrary channel.

Figure 2011248025
Figure 2011248025

なお、αはチャネルiにおける正規化係数を意味しており、このαを求める際には、全フレームのパワー値P(n)を用いるのではなく、無音フレームを除いた全てのフレームを用いることとしても良い。実施例2にかかるチャネル選択部42は、チャネルごとの音声ディジタル信号S(t)(i=1〜J)と、前記チャネルごとの正規化パワー値P'(n)(i=1〜J)とを入力とし、当該正規化パワー値P'(n)(i=1〜J)が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力する(S42)。図4の例では、出力音声ディジタル信号としてj番目のチャネルの音声ディジタル信号S(t)が選択されて出力されている。 Note that α i means a normalization coefficient in channel i, and when obtaining α i , power values P i (n) of all frames are not used, but all frames except silent frames are used. It is good also as using. The channel selection unit 42 according to the second embodiment includes an audio digital signal S i (t) (i = 1 to J) for each channel and a normalized power value P ′ i (n) (i = 1 to 1) for each channel. J) as an input, the audio digital signal of the channel with the maximum normalized power value P ′ i (n) (i = 1 to J) is selected and output as an output audio digital signal (S42). In the example of FIG. 4, the audio digital signal S j (t) of the j-th channel is selected and output as the output audio digital signal.

これらにより、実施例1における効果に加えて、チャネル間の入力信号パワーに偏りが生じなくなり、マイクロフォンの感度の違い、発話者の発声の大きさの個人差、発話者とマイクロフォンの距離などを考慮した最適なチャネル選択を行うことができる。   As a result, in addition to the effects of the first embodiment, there is no bias in the input signal power between channels, and the difference in microphone sensitivity, the individual difference in the speaker's utterance size, the distance between the speaker and the microphone, etc. are taken into consideration. Optimal channel selection can be performed.

図6、7を参照して本発明の実施例3にかかるチャネル統合装置および、チャネル統合方法を説明する。本実施例は、実施例1の変形例である。図6に示す本発明の実施例3にかかるチャネル統合装置60は、実施例1におけるパワー計算部21に代えて尤度差計算部61を備える。この点のみが実施例1との相違点であるため、以下、実施例1との相違点のみを説明する。   A channel integration apparatus and a channel integration method according to Embodiment 3 of the present invention will be described with reference to FIGS. The present embodiment is a modification of the first embodiment. A channel integration device 60 according to the third embodiment of the present invention illustrated in FIG. 6 includes a likelihood difference calculation unit 61 instead of the power calculation unit 21 according to the first embodiment. Since this is the only difference from the first embodiment, only the difference from the first embodiment will be described below.

尤度差計算部61は、チャネルごとの音声ディジタル信号S(t)(i=1〜J)と、モノフォンと、モノフォンから構築した音声モデルと、ポーズモデルとを入力とし、チャネルごとにモノフォンの尤度を計算してモノフォン最尤スコアを取得し、チャネルごとに音声モデルとポーズモデルの尤度を計算して音声/ポーズモデル最尤スコアを取得し、チャネルごとにモノフォン最尤スコアと音声/ポーズモデル最尤スコアの差分を尤度差として出力する(S61)。このときモノフォン、モノフォンから構築した音声モデル、ポーズモデルは何れも音響/言語モデルデータベース24に予め記憶されているものとし、尤度差計算部61は、音響/言語モデルデータベース24から、モノフォン、音声モデル、ポーズモデルを取得して用いるものとする。モノフォンの尤度については、音声ディジタル信号S(t)(i=1〜J)からチャネルごと、フレームごとに音声特徴量を計算し、計算された音声特徴量を、ポーズを含む全てのモノフォンと照合することで求めることができる。このようにして求められたモノフォンの尤度のうちから最尤となるものをモノフォン最尤スコアとして用いる。音声モデル、ポーズモデルの尤度については、音声ディジタル信号S(t)(i=1〜J)からチャネルごと、フレームごとに音声特徴量を計算し、計算された音声特徴量を音声GMM(Gaussian Mixture Model: 混合正規分布)、無音(ポーズ)HMM(Hidden Markov Model: 隠れマルコフモデル)と照合することで音声モデル、ポーズモデルそれぞれの尤度を求めることができる。なお、音声特徴量を音声GMMや無音HMMとの照合については、特願2009−158783(参考特許文献1)に示されている。このようにして求められた音声モデルの尤度、ポーズモデルの尤度のうちから最尤となるものを音声/ポーズモデル最尤スコアとして用いる。 The likelihood difference calculation unit 61 receives a speech digital signal S i (t) (i = 1 to J) for each channel, a monophone, a speech model constructed from the monophone, and a pose model, and inputs a monophone for each channel. The likelihood of monophone is obtained by calculating the likelihood of monophone, the likelihood of speech / pause model is obtained by calculating the likelihood of speech model and pause model for each channel, and the maximum likelihood score of monophone and speech is obtained for each channel / The difference between the pose model maximum likelihood scores is output as a likelihood difference (S61). At this time, it is assumed that the monophone, the speech model constructed from the monophone, and the pose model are all stored in advance in the acoustic / language model database 24, and the likelihood difference calculation unit 61 receives the monophone, speech from the acoustic / language model database 24. A model and a pose model are acquired and used. As for the likelihood of the monophone, the speech feature amount is calculated for each channel and each frame from the speech digital signal S i (t) (i = 1 to J), and the calculated speech feature amount is calculated for all monophones including the pose. It can be obtained by collating with. Of the likelihoods of the monophone thus determined, the maximum likelihood is used as the monophone maximum likelihood score. For the likelihood of the speech model and pause model, the speech feature value is calculated for each channel and frame from the speech digital signal S i (t) (i = 1 to J), and the calculated speech feature value is represented by speech GMM ( The likelihood of each of the speech model and the pose model can be obtained by comparing with a Gaussian Mixture Model (mixed normal distribution) and a silent (pause) HMM (Hidden Markov Model). Note that Japanese Patent Application No. 2009-158783 (Reference Patent Document 1) discloses a method for comparing a voice feature amount with a voice GMM or a silent HMM. Of the likelihood of the speech model and the likelihood of the pose model thus obtained, the maximum likelihood is used as the speech / pose model maximum likelihood score.

以後、チャネルi、フレームnにおけるモノフォン最尤スコアをL (n)、音声/ポーズモデル最尤スコアをL S/P(n)、尤度差をΔL(n)と表現するものとする。従って尤度差ΔL(n)=L (n)−L S/P(n)となる。 Hereinafter, the monophone maximum likelihood score in channel i and frame n is expressed as L i m (n), the speech / pause model maximum likelihood score is expressed as L i S / P (n), and the likelihood difference is expressed as ΔL i (n). And Therefore, the likelihood difference ΔL i (n) = L i m (n) −L i S / P (n).

なお、音声モデルはモノフォン全ての学習データから構築したモデルであり、モノフォンに属する混合分布より分散が広くなり、様々なデータで安定した尤度を出力する。明瞭な発声が入力されたチャネルでは、モノフォンの尤度は大きくなり、従ってモノフォン最尤スコアが大きくなるため尤度差ΔL(n)は大きくなる。また、曖昧な発声や雑音が重畳した音声ではモノフォンの尤度は小さくなり、従ってモノフォン最尤スコアが小さくなるため尤度差ΔL(n)は小さくなる。従って尤度差ΔL(n)の値は、チャネルiが雑音が少なく明瞭であることを示す指標となる。なお、本実施例で用いられている尤度の代わりに各モデルに属する混合分布の出現確率を用いることとしてもよい。 Note that the speech model is a model constructed from learning data of all monophones, and the variance is wider than the mixed distribution belonging to the monophone, and a stable likelihood is output with various data. In a channel in which a clear utterance is input, the likelihood of the monophone is increased, and therefore the monophone maximum likelihood score is increased, so that the likelihood difference ΔL i (n) is increased. In addition, the likelihood of a monophone is reduced in a voice in which an ambiguous utterance or noise is superimposed, and therefore the likelihood difference ΔL i (n) is reduced because the monophone maximum likelihood score is reduced. Therefore, the value of the likelihood difference ΔL i (n) is an index indicating that the channel i is clear with little noise. In addition, it is good also as using the appearance probability of the mixed distribution which belongs to each model instead of the likelihood used in a present Example.

実施例3にかかるチャネル選択部62は、前記チャネルごとの音声ディジタル信号S(t)(i=1〜J)と、前記チャネルごとの尤度差ΔL(n)(i=1〜J)とを入力とし、尤度差ΔL(n)が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力する(S62)。例えば、チャネル番号jの尤度差ΔL(n)が最大となる場合、つまり The channel selector 62 according to the third embodiment includes the audio digital signal S i (t) (i = 1 to J) for each channel and the likelihood difference ΔL i (n) (i = 1 to J) for each channel. ) Is input, the audio digital signal of the channel with the maximum likelihood difference ΔL i (n) is selected and output as an output audio digital signal (S62). For example, when the likelihood difference ΔL j (n) of the channel number j is maximized, that is,

Figure 2011248025
Figure 2011248025

である場合、チャネル番号jの音声ディジタル信号S(t)を選択して、出力音声ディジタル信号として出力する。 , The audio digital signal S j (t) of channel number j is selected and output as an output audio digital signal.

これらにより、実施例1における効果に加えて、明瞭な発声が音声信号として入力された場合に、モノフォン最尤スコアL (n)が高くなり、その結果として尤度差ΔL(n)が大きくなることから、明瞭な発声が入力されたか否かを基準としてチャネルを選択することができる。従って、例えばパワー値は大きいが雑音が多く含まれているような、音声認識を行うのに最適でないチャネルを選択することを避けることができ、雑音が少なく明瞭であることを示す尤度差を基準にして音声認識に最適なチャネルを選択することができる。 As a result, in addition to the effects in the first embodiment, when a clear utterance is input as an audio signal, the monophone maximum likelihood score L i m (n) increases, and as a result, the likelihood difference ΔL i (n) Therefore, the channel can be selected based on whether or not a clear utterance is input. Therefore, it is possible to avoid selecting a channel that is not optimal for speech recognition, for example, a power value that is large but contains a lot of noise, and a likelihood difference indicating that the noise is clear and clear. An optimum channel for speech recognition can be selected on the basis of the standard.

図8、9を参照して本発明の実施例4にかかるチャネル統合装置および、チャネル統合方法を説明する。本実施例は、実施例3の変形例である。図8に示す本発明の実施例4にかかるチャネル統合装置80は、実施例3におけるチャネル選択部62に代えてチャネル統合部81を備える。この点のみが実施例3との相違点であるため、以下、実施例3との相違点のみを説明する。   A channel integration apparatus and a channel integration method according to Embodiment 4 of the present invention will be described with reference to FIGS. The present embodiment is a modification of the third embodiment. A channel integration device 80 according to the fourth embodiment of the present invention illustrated in FIG. 8 includes a channel integration unit 81 instead of the channel selection unit 62 according to the third embodiment. Since only this point is the difference from the third embodiment, only the difference from the third embodiment will be described below.

チャネル統合部81は、チャネルごとの音声ディジタル信号と、チャネルごとの尤度差とを入力とし、当該チャネルごとの尤度差からチャネルごとに重み係数を計算して、当該重み係数により前記チャネルごとの音声ディジタル信号に重みづけし、当該重みづけされた全てのチャネルの音声ディジタル信号を合成して出力音声ディジタル信号として出力する(S81)。以後、全てのチャネルの音声ディジタル信号を合成した出力音声ディジタル信号をS(t)と表現する。合成後の出力音声ディジタル信号S(t)は以下の式で計算することができる。なお、kは任意のチャネルを表すものとする。   The channel integration unit 81 receives the audio digital signal for each channel and the likelihood difference for each channel, calculates a weighting factor for each channel from the likelihood difference for each channel, and uses the weighting factor for each channel. The voice digital signals are weighted, and the weighted voice digital signals of all the channels are synthesized and output as an output voice digital signal (S81). Hereinafter, an output audio digital signal obtained by synthesizing audio digital signals of all channels is expressed as S (t). The synthesized output audio digital signal S (t) can be calculated by the following equation. Note that k represents an arbitrary channel.

Figure 2011248025
Figure 2011248025

本実施例では、実施例3の変形例として、尤度差ΔL(n)に基づいて、全てのチャネルの音声ディジタル信号を合成することとしたが、これに限られない。例えば、実施例1の変形例として、パワー値P(n)に基づいて、全てのチャネルの音声ディジタル信号を合成することとしてもよい。この場合、合成後の出力音声ディジタル信号S(t)は以下の式で計算することができる。なお、kは任意のチャネルを表すものとする。 In the present embodiment, as a modification of the third embodiment, the audio digital signals of all channels are synthesized based on the likelihood difference ΔL i (n), but the present invention is not limited to this. For example, as a modification of the first embodiment, audio digital signals of all channels may be synthesized based on the power value P i (n). In this case, the synthesized output audio digital signal S (t) can be calculated by the following equation. Note that k represents an arbitrary channel.

Figure 2011248025
Figure 2011248025

これにより、実施例1における効果に加えて、尤度差に基づいて音声ディジタル信号を合成する場合には、尤度差が最大となるチャネルの音声ディジタル信号が重みづけにより他のチャネルよりも大きい割合で単一のチャネルに統合されるため、実施例3と同様の効果が生まれる。さらに、尤度差(パワー値)が最大とならなかった他のチャネルの音声ディジタル信号についても、適切に重みづけされて単一のチャネルに統合されるため、最大ではないが十分に大きな尤度差(パワー値)を持つチャネルについては、音声認識に使用され、音声認識の精度を高めることができる。   Thereby, in addition to the effects in the first embodiment, when the speech digital signal is synthesized based on the likelihood difference, the speech digital signal of the channel with the maximum likelihood difference is larger than the other channels by weighting. Since the ratio is integrated into a single channel, the same effect as in the third embodiment is produced. In addition, the audio digital signals of other channels that did not have the maximum likelihood difference (power value) are also appropriately weighted and integrated into a single channel. Channels having a difference (power value) are used for speech recognition, and the accuracy of speech recognition can be improved.

図10、11を参照して本発明の実施例5にかかるチャネル統合装置および、チャネル統合方法を説明する。本実施例は、実施例1、2、3の変形例である。図10に示す本発明の実施例5にかかるチャネル統合装置100は、実施例3の変形例を代表例として図示したものである。図10に示すチャネル統合装置100は、実施例3におけるチャネル選択部62に代えて、重みづけ手段101をさらに備えるチャネル選択部102を備える。この点のみが実施例1、2、3との相違点であるため、以下、実施例1、2、3との相違点のみを説明する。   A channel integration apparatus and a channel integration method according to Embodiment 5 of the present invention will be described with reference to FIGS. This embodiment is a modification of the first, second and third embodiments. A channel integration apparatus 100 according to the fifth embodiment of the present invention illustrated in FIG. 10 is a variation of the third embodiment illustrated as a representative example. A channel integration apparatus 100 illustrated in FIG. 10 includes a channel selection unit 102 that further includes weighting means 101 instead of the channel selection unit 62 in the third embodiment. Since only this point is the difference from the first, second, and third embodiments, only the difference from the first, second, and third embodiments will be described below.

重みづけ手段101は、任意のチャネルの連続選択時間長に応じてチャネルごとに重み係数を計算し、当該重み係数により重みづけされたパワー値、もしくは重みづけされた尤度差を用いて当該重みづけされたパワー値、もしくは重みづけされた尤度差が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力する(S101、S102)。連続選択時間長に応じた重みづけは以下のように行われる。予めチャネル変更負荷時間Tcを設定しておく。これは例えば1secなどでよい。さらに、例えばチャネルjが任意の過去の時刻から現在に至るまで一定時間連続して選択されている場合、その連続選択時間をtcと表現し、チャネルごとに重み係数wを以下のように決定する。任意の時刻から現在に至るまで連続して選択されているチャネルjについての重み係数w=1とする。従って、過去から現在まで連続して選択され続けているチャネルについては、1よりも小さな重みづけがなされず、選択されやすい状態になる。次にチャネルj以外の任意のチャネルk(k≠j)の重み係数をwk≠j=tc/Tcとする。ただし、tc>Tcとなる場合には、tc=Tcとし、重み係数wが1を超えて大きくならないようにする。従って、チャネルjが任意の時刻に設定されてから現在に至るまでの経過時間が短い(tcが小さい)場合には、wk≠j=tc/Tcの値が小さくなるため、他のチャネルへの遷移が起こりにくくなる。チャネルjが任意の時刻に設定されてから現在に至るまでの経過時間が十分に長い(tcが大きい)場合には、wk≠j=tc/Tcの値が大きくなるため、他のチャネルへの遷移が起こりやすくなる。 The weighting unit 101 calculates a weighting factor for each channel according to the continuous selection time length of an arbitrary channel, and uses the power value weighted by the weighting factor or the weighted likelihood difference to calculate the weighting factor. The voice digital signal of the channel having the maximum power value or weighted likelihood difference is selected and output as an output voice digital signal (S101, S102). The weighting according to the continuous selection time length is performed as follows. A channel change load time Tc is set in advance. This may be 1 sec, for example. Further, for example, when channel j is continuously selected for a fixed time from an arbitrary past time to the present, the continuous selection time is expressed as tc j, and the weighting factor w i for each channel is as follows: decide. It is assumed that weighting factor w j = 1 for channel j selected continuously from an arbitrary time to the present. Therefore, a channel that has been continuously selected from the past to the present is not weighted smaller than 1, and is easily selected. Next, the weight coefficient of an arbitrary channel k (k ≠ j) other than channel j is set to w k ≠ j = tc j / Tc. However, when tc j > Tc, tc j = Tc is set so that the weight coefficient w i does not exceed 1 and becomes large. Therefore, when the elapsed time from the time when channel j is set to an arbitrary time until the present time is short (tc j is small), the value of w k ≠ j = tc j / Tc becomes small. Transition to channel is less likely to occur. When the elapsed time from channel j being set at an arbitrary time to the present is sufficiently long (tc j is large), the value of w k ≠ j = tc j / Tc becomes large. Transition to channel is likely to occur.

パワー値に基づいてチャネルを選択している場合には、計算したチャネルごとの重み係数wをパワー値P(n)(i=1〜J)に重みづけし、当該重みづけされたパワー値w×P(n)(i=1〜J)から最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力する。例えば、チャネル番号jの重みづけされたパワー値w×P(n)が最大となる場合、つまり When a channel is selected based on the power value, the calculated weight coefficient w i for each channel is weighted to the power value P i (n) (i = 1 to J), and the weighted power From the value w i × P i (n) (i = 1 to J), the audio digital signal of the maximum channel is selected and output as an output audio digital signal. For example, when the weighted power value w j × P j (n) of channel number j is maximum,

Figure 2011248025
Figure 2011248025

である場合、チャネル番号jの音声ディジタル信号S(t)を選択して、出力音声ディジタル信号として出力する。このように重み係数wを設定して用いることにより、予め定めた一定時間(チャネル変更負荷時間Tc)よりも短い時間でのチャネル遷移に対して1よりも小さな重みづけがなされ、このような頻繁なチャネル遷移が起こりにくくなる。また予め定めた一定時間(チャネル変更負荷時間Tc)よりも長く、任意のチャネルが選択され続けて、遷移が起こらなかった場合には、すべての重みづけ係数wが等しく1となるため、以後の遷移については1よりも小さな重みづけがかからず、単純にパワー値が最大となるチャネルが選択される。尤度差に基づいてチャネルを選択している場合にも同様である。この場合は、 , The audio digital signal S j (t) of channel number j is selected and output as an output audio digital signal. By setting and using the weight coefficient w i in this way, a weight smaller than 1 is given to a channel transition in a time shorter than a predetermined time (channel change load time Tc). Frequent channel transitions are less likely to occur. In addition, when any channel is continuously selected and longer than a predetermined time (channel change load time Tc) and no transition occurs, all the weighting factors w i are equal to 1, so that For the transition of, a channel having the maximum power value is simply selected without applying a weight smaller than 1. The same applies when a channel is selected based on the likelihood difference. in this case,

Figure 2011248025
Figure 2011248025

を満たすチャネル番号jの音声ディジタル信号S(t)が選択される。 The audio digital signal S j (t) of channel number j that satisfies the above is selected.

これにより、実施例1、2、3における効果に加えて、任意チャネルの連続選択時間長に応じて計算された重み係数により重みづけされたパワー値もしくは尤度差を用いてチャネル選択を行うため、チャネルの頻繁な遷移を避けることができ、音声認識の精度を高めることができる。   Thereby, in addition to the effects in the first, second, and third embodiments, channel selection is performed using the power value or the likelihood difference weighted by the weighting coefficient calculated according to the continuous selection time length of the arbitrary channel. Can avoid frequent transitions of channels, and can improve the accuracy of voice recognition.

図12、13、14を参照して本発明の実施例6にかかるチャネル統合装置および、チャネル統合方法を説明する。本実施例は、実施例1、2、3の変形例である。図12に示す本発明の実施例6にかかるチャネル統合装置120は、実施例3の変形例を代表例として図示したものである。図12に示すチャネル統合装置120は、実施例3におけるチャネル選択部62に代えて、マージン処理手段122をさらに備えるチャネル選択部121を備える。この点のみが実施例1、2、3との相違点であるため、以下、実施例1、2、3との相違点のみを説明する。   A channel integration apparatus and a channel integration method according to Embodiment 6 of the present invention will be described with reference to FIGS. This embodiment is a modification of the first, second and third embodiments. The channel integration device 120 according to the sixth embodiment of the present invention illustrated in FIG. 12 is a modification of the third embodiment illustrated as a representative example. A channel integration device 120 illustrated in FIG. 12 includes a channel selection unit 121 that further includes a margin processing unit 122 instead of the channel selection unit 62 in the third embodiment. Since only this point is the difference from the first, second, and third embodiments, only the difference from the first, second, and third embodiments will be described below.

マージン処理手段122は、全ての音声ディジタル信号のパワー値が一定の値を越えないために、何れのチャネルも選択されない時間区間(以下、無音区間という)が発生した場合に、無音区間の直前に選択されたチャネルの当該無音区間における音声ディジタル信号と、無音区間の直後に選択されたチャネルの当該無音区間における音声ディジタル信号とを用いて無音区間を補てんして、無音区間における出力音声ディジタル信号として出力する(S122)。詳細には図14に示すように、マージン処理手段122は、無音区間の直後に選択されたチャネルYの音声ディジタル信号の補てん時間長が、無音区間の直前に選択されたチャネルXの音声ディジタル信号の補てん時間長よりも長くなるように無音区間を補てんする。   The margin processing means 122 immediately before the silence interval when a time interval in which no channel is selected (hereinafter referred to as a silence interval) occurs because the power values of all audio digital signals do not exceed a certain value. Using the audio digital signal in the silence period of the selected channel and the audio digital signal in the silence period of the channel selected immediately after the silence period as a supplement, the silence period is supplemented as an output audio digital signal in the silence period. Output (S122). In detail, as shown in FIG. 14, the margin processing means 122 uses the channel X audio digital signal selected immediately before the silence interval as the complement time length of the channel Y audio digital signal selected immediately after the silence interval. The silent section is compensated so as to be longer than the compensation time length.

これにより、実施例1、2、3における効果に加えて、発話区間の始端において、何れのチャネルも選択されていないことにより、この発話区間の始端が欠損することを避けることができ、音声認識の精度を高めることができる。また、子音は母音に比べてパワーが小さく、音声認識の前処理の音声区間検出における始端検出に失敗しやすく、始端検出の失敗により、発話区間の始端が欠損し、音声認識の精度が劣化する。さらに、現状の音声認識で用いられる手法(N−gram、探索中の枝刈など)は直前の認識仮説の影響を受けるため、始端検出誤りが発生すれば、始端よりも後の発話区間でも連鎖して誤認識を引き起こす。実施例6にかかるマージン処理手段によれば、これらの認識精度の劣化を回避することができる。   As a result, in addition to the effects in the first, second, and third embodiments, since no channel is selected at the beginning of the speech section, it is possible to avoid the beginning of the speech section from being lost, and voice recognition can be performed. Can improve the accuracy. In addition, consonants are less powerful than vowels, and are likely to fail to detect the start of speech recognition in the pre-processing of speech recognition. The failure of the start detection results in loss of the start of the utterance interval, which degrades speech recognition accuracy. . Furthermore, since the methods used in current speech recognition (N-gram, pruning during search, etc.) are affected by the immediately preceding recognition hypothesis, if a start end detection error occurs, chaining is also performed in the utterance section after the start end. Cause misrecognition. According to the margin processing means according to the sixth embodiment, it is possible to avoid the deterioration of the recognition accuracy.

図15、16を参照して本発明の実施例7にかかるチャネル統合装置および、チャネル統合方法を説明する。本実施例は、実施例1、2、3の変形例である。図15に示す本発明の実施例7にかかるチャネル統合装置150は、実施例3の変形例を代表例として図示したものである。図15に示すチャネル統合装置150は、実施例3における音声信号保存部25に代えて、すべてのチャネルの音声ディジタル信号を保存しておく音声信号保存部151を備える。この点のみが実施例1、2、3との相違点であるため、以下、実施例1、2、3との相違点のみを説明する。   A channel integration apparatus and a channel integration method according to Embodiment 7 of the present invention will be described with reference to FIGS. This embodiment is a modification of the first, second and third embodiments. A channel integration device 150 according to the seventh embodiment of the present invention illustrated in FIG. 15 is a modification of the third embodiment illustrated as a representative example. A channel integration device 150 shown in FIG. 15 includes an audio signal storage unit 151 that stores audio digital signals of all channels, instead of the audio signal storage unit 25 in the third embodiment. Since only this point is the difference from the first, second, and third embodiments, only the difference from the first, second, and third embodiments will be described below.

音声信号保存部151は、すべてのチャネルの予め定められた時間長の音声ディジタル信号を保存しておき(S151)、音声ディジタル信号に欠損が生じた場合に、保存した音声ディジタル信号を用いて欠損を補てんする。この点のみが実施例1、2、3との相違点である。詳細には、音声信号保存部151は、入力されたチャネルごとの音声ディジタル信号S(t)(i=1〜J)を加算平均し、モノラル化して保存する。複数チャンネルのモノラル化する事で保存する音声ファイルのファイルサイズを小さくする事ができる。モノラル化され保存される音声信号をSorg(t)とすると上記処理は例えば以下の数式にて実現される。チャネル数で除算されるため、振幅レベルが小さくなるため、1以上の一定の係数をかけて音量レベルを向上させても構わない。 The audio signal storage unit 151 stores an audio digital signal of a predetermined time length for all channels (S151), and when the audio digital signal is lost, the audio signal storage unit 151 uses the saved audio digital signal to delete the audio digital signal. To compensate. Only this point is different from the first, second, and third embodiments. Specifically, the audio signal storage unit 151 averages the input audio digital signals S i (t) (i = 1 to J) for each channel, and stores them as monaural data. The file size of the audio file to be saved can be reduced by making multiple channels monaural. If the audio signal that is monauralized and stored is S org (t), the above processing is realized by the following mathematical formula, for example. Since the amplitude level is reduced because it is divided by the number of channels, the volume level may be improved by applying a constant coefficient of 1 or more.

Figure 2011248025
Figure 2011248025

これにより、実施例1、2、3における効果に加えて、チャネル選択の誤りにより、音声ディジタル信号に欠損が生じた場合でもその欠損を補てんすることができるため、欠損により音声認識精度が劣化した区間でも、音声信号の情報としては保存されているため、人手により音声認識結果の修正が可能である。   As a result, in addition to the effects of the first, second, and third embodiments, even if a voice digital signal is lost due to an error in channel selection, the loss can be compensated for, so that the voice recognition accuracy deteriorates due to the loss. Since the information of the voice signal is stored even in the section, the voice recognition result can be corrected manually.

以上のように、本発明の実施例1にかかるチャネル統合装置によれば、音声認識に適した単一チャネルのみを音声認識に用いるため、音声認識の精度を高めることができ、音声認識に要する計算量を少なくすることができ、音声認識に要する時間も削減でき、音声認識結果を統合する処理も削減できる。加えて、音声認識に適した1のチャネルが自動的に選択されるため、音声認識用の音響モデル学習に要するラベル付けのコストを削減できる。また本発明の実施例2にかかるチャネル統合装置によれば、パワー値を正規化するため、マイクロフォンの感度の違いなどを考慮した最適なチャネル選択を行うことができる。また本発明の実施例3にかかるチャネル統合装置によれば、雑音が少なく明瞭であることを示す尤度差を基準にして音声認識に最適なチャネルを選択することができる。また本発明の実施例4にかかるチャネル統合装置によれば、複数チャネルからの音声信号が適切に重みづけされて統合されるため、音声認識の精度を高めることができる。また本発明の実施例5にかかるチャネル統合装置によれば、チャネルの頻繁な遷移を避けることができ、音声認識の精度を高めることができる。また本発明の実施例6にかかるチャネル統合装置によれば、発話区間の始端が欠損することによる音声情報の欠落を回避することができる。また本発明の実施例7にかかるチャネル統合装置によれば、音声ディジタル信号に欠損が生じた場合でもその欠損を補てんして音声認識精度の劣化を避けることができる。   As described above, according to the channel integration device according to the first exemplary embodiment of the present invention, only a single channel suitable for speech recognition is used for speech recognition. Therefore, the accuracy of speech recognition can be improved and required for speech recognition. The amount of calculation can be reduced, the time required for speech recognition can be reduced, and the processing for integrating speech recognition results can also be reduced. In addition, since one channel suitable for speech recognition is automatically selected, the labeling cost required for learning the acoustic model for speech recognition can be reduced. In addition, according to the channel integration device according to the second exemplary embodiment of the present invention, since the power value is normalized, it is possible to perform optimal channel selection in consideration of differences in microphone sensitivity. In addition, according to the channel integration apparatus according to the third embodiment of the present invention, it is possible to select the optimum channel for speech recognition based on the likelihood difference indicating that the noise is clear and clear. Further, according to the channel integration device according to the fourth exemplary embodiment of the present invention, since the audio signals from a plurality of channels are appropriately weighted and integrated, it is possible to improve the accuracy of the speech recognition. In addition, according to the channel integration apparatus of the fifth embodiment of the present invention, frequent channel transitions can be avoided and the accuracy of voice recognition can be improved. In addition, according to the channel integration device according to the sixth embodiment of the present invention, it is possible to avoid the loss of voice information due to the loss of the start end of the utterance section. Further, according to the channel integration apparatus of the seventh embodiment of the present invention, even when a voice digital signal has a defect, it is possible to compensate for the defect and avoid deterioration of the voice recognition accuracy.

また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。   In addition, the various processes described above are not only executed in time series according to the description, but may be executed in parallel or individually according to the processing capability of the apparatus that executes the processes or as necessary. Needless to say, other modifications are possible without departing from the spirit of the present invention.

また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。   Further, when the above-described configuration is realized by a computer, processing contents of functions that each device should have are described by a program. The processing functions are realized on the computer by executing the program on the computer.

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。   The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。   The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。   A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, the computer reads a program stored in its own recording medium and executes a process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。   In this embodiment, the present apparatus is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.

Claims (12)

複数のチャネルから音声認識に適した1のチャネルを選択して、音声認識を行うチャネル統合方法であって、
チャネルごとの音声信号を入力とし、当該音声信号をアナログ−ディジタル変換により、チャネルごとに音声ディジタル信号に変換して出力する音声入力ステップと、
前記チャネルごとの音声ディジタル信号を入力とし、当該音声ディジタル信号のパワー値をチャネルごとに計算して出力するパワー計算ステップと、
前記チャネルごとの音声ディジタル信号と、前記チャネルごとのパワー値とを入力とし、当該パワー値が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力するチャネル選択ステップと、
前記出力音声ディジタル信号と、音響モデルと、言語モデルとを入力とし、音声認識処理を行って認識結果テキストを生成し、当該認識結果テキストを時間情報と対応付けて出力する音声認識ステップと、
前記出力音声ディジタル信号を入力とし、当該出力音声ディジタル信号を保存して保存音声信号ファイル情報を生成し、当該保存音声信号ファイル情報を時間情報と対応付けて出力する音声信号保存ステップと、
前記保存音声信号ファイル情報と、前記認識結果テキストと、前記時間情報とを入力とし、前記時間情報を用いて、前記保存音声信号ファイル情報と前記認識結果テキストとを対応付けて保存する音声/テキスト保存ステップと、
を備えることを特徴とするチャネル統合方法。
A channel integration method for performing speech recognition by selecting one channel suitable for speech recognition from a plurality of channels,
An audio input step for inputting an audio signal for each channel and converting the audio signal into an audio digital signal for each channel by analog-digital conversion;
A power calculation step of inputting the voice digital signal for each channel and calculating and outputting the power value of the voice digital signal for each channel;
A channel selection step of inputting the audio digital signal for each channel and the power value for each channel, selecting the audio digital signal of the channel having the maximum power value, and outputting as an output audio digital signal;
A speech recognition step of receiving the output speech digital signal, an acoustic model, and a language model, performing speech recognition processing to generate a recognition result text, and outputting the recognition result text in association with time information;
An audio signal storage step of receiving the output audio digital signal, storing the output audio digital signal to generate stored audio signal file information, and outputting the stored audio signal file information in association with time information;
The voice / text which receives the stored voice signal file information, the recognition result text, and the time information as input, and stores the saved voice signal file information and the recognition result text in association with each other using the time information. A save step;
A channel integration method comprising:
複数のチャネルから音声認識に適した1のチャネルを選択して、音声認識を行うチャネル統合方法であって、
チャネルごとの音声信号を入力とし、当該音声信号をアナログ−ディジタル変換により、チャネルごとに音声ディジタル信号に変換して出力する音声入力ステップと、
前記チャネルごとの音声ディジタル信号を入力とし、当該音声ディジタル信号のパワー値をチャネルごとに計算して出力するパワー計算ステップと、
前記チャネルごとのパワー値を入力とし、当該パワー値の正規化パワー値をチャネルごとに計算して出力するパワー正規化ステップと、
前記チャネルごとの音声ディジタル信号と、前記チャネルごとの正規化パワー値とを入力とし、当該正規化パワー値が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力するチャネル選択ステップと、
前記出力音声ディジタル信号と、音響モデルと、言語モデルとを入力とし、音声認識処理を行って認識結果テキストを生成し、当該認識結果テキストを時間情報と対応付けて出力する音声認識ステップと、
前記出力音声ディジタル信号を入力とし、当該出力音声ディジタル信号を保存して保存音声信号ファイル情報を生成し、当該保存音声信号ファイル情報を時間情報と対応付けて出力する音声信号保存ステップと、
前記保存音声信号ファイル情報と、前記認識結果テキストと、前記時間情報とを入力とし、前記時間情報を用いて、前記保存音声信号ファイル情報と前記認識結果テキストとを対応付けて保存する音声/テキスト保存ステップと、
を備えることを特徴とするチャネル統合方法。
A channel integration method for performing speech recognition by selecting one channel suitable for speech recognition from a plurality of channels,
An audio input step for inputting an audio signal for each channel and converting the audio signal into an audio digital signal for each channel by analog-digital conversion;
A power calculation step of inputting the voice digital signal for each channel and calculating and outputting the power value of the voice digital signal for each channel;
A power normalization step that takes the power value for each channel as an input, calculates and outputs a normalized power value of the power value for each channel, and
A channel selection that inputs the audio digital signal for each channel and the normalized power value for each channel, selects the audio digital signal of the channel that maximizes the normalized power value, and outputs it as an output audio digital signal Steps,
A speech recognition step of receiving the output speech digital signal, an acoustic model, and a language model, performing speech recognition processing to generate a recognition result text, and outputting the recognition result text in association with time information;
An audio signal storage step of receiving the output audio digital signal, storing the output audio digital signal to generate stored audio signal file information, and outputting the stored audio signal file information in association with time information;
The voice / text which receives the stored voice signal file information, the recognition result text, and the time information as input, and stores the saved voice signal file information and the recognition result text in association with each other using the time information. A save step;
A channel integration method comprising:
複数のチャネルから音声認識に適した1のチャネルを選択して、音声認識を行うチャネル統合方法であって、
チャネルごとの音声信号を入力とし、当該音声信号をアナログ−ディジタル変換により、チャネルごとに音声ディジタル信号に変換して出力する音声入力ステップと、
前記チャネルごとの音声ディジタル信号と、モノフォンと、モノフォンから構築した音声モデルと、ポーズモデルとを入力とし、チャネルごとにモノフォンの尤度を計算してモノフォン最尤スコアを取得し、チャネルごとに音声モデルとポーズモデルの尤度を計算して音声/ポーズモデル最尤スコアを取得し、チャネルごとに前記モノフォン最尤スコアと前記音声/ポーズモデル最尤スコアの差分を尤度差として出力する尤度差計算ステップと、
前記チャネルごとの音声ディジタル信号と、前記チャネルごとの尤度差とを入力とし、当該尤度差が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力するチャネル選択ステップと、
前記出力音声ディジタル信号と、音響モデルと、言語モデルとを入力とし、音声認識処理を行って認識結果テキストを生成し、当該認識結果テキストを時間情報と対応付けて出力する音声認識ステップと、
前記出力音声ディジタル信号を入力とし、当該出力音声ディジタル信号を保存して保存音声信号ファイル情報を生成し、当該保存音声信号ファイル情報を時間情報と対応付けて出力する音声信号保存ステップと、
前記保存音声信号ファイル情報と、前記認識結果テキストと、前記時間情報とを入力とし、前記時間情報を用いて、前記保存音声信号ファイル情報と前記認識結果テキストとを対応付けて保存する音声/テキスト保存ステップと、
を備えることを特徴とするチャネル統合方法。
A channel integration method for performing speech recognition by selecting one channel suitable for speech recognition from a plurality of channels,
An audio input step for inputting an audio signal for each channel and converting the audio signal into an audio digital signal for each channel by analog-digital conversion;
The audio digital signal for each channel, the monophone, the audio model constructed from the monophone, and the pause model are input, the likelihood of the monophone is calculated for each channel to obtain the monophone maximum likelihood score, and the audio for each channel is obtained. The likelihood of calculating the likelihood of the model and the pose model to obtain a speech / pause model maximum likelihood score and outputting the difference between the monophone maximum likelihood score and the speech / pause model maximum likelihood score as a likelihood difference for each channel A difference calculation step;
A channel selection step of inputting the audio digital signal for each channel and the likelihood difference for each channel, selecting the audio digital signal of the channel that maximizes the likelihood difference, and outputting it as an output audio digital signal; ,
A speech recognition step of receiving the output speech digital signal, an acoustic model, and a language model, performing speech recognition processing to generate a recognition result text, and outputting the recognition result text in association with time information;
An audio signal storage step of receiving the output audio digital signal, storing the output audio digital signal to generate stored audio signal file information, and outputting the stored audio signal file information in association with time information;
The voice / text which receives the stored voice signal file information, the recognition result text, and the time information as input, and stores the saved voice signal file information and the recognition result text in association with each other using the time information. A save step;
A channel integration method comprising:
複数のチャネルから音声認識に適した1のチャネルを選択して、音声認識を行うチャネル統合方法であって、
チャネルごとの音声信号を入力とし、当該音声信号をアナログ−ディジタル変換により、チャネルごとに音声ディジタル信号に変換して出力する音声入力ステップと、
前記チャネルごとの音声ディジタル信号と、モノフォンと、モノフォンから構築した音声モデルと、ポーズモデルとを入力とし、チャネルごとにモノフォンの尤度を計算してモノフォン最尤スコアを取得し、チャネルごとに音声モデルとポーズモデルの尤度を計算して音声/ポーズモデル最尤スコアを取得し、チャネルごとに前記モノフォン最尤スコアと前記音声/ポーズモデル最尤スコアの差分を尤度差として出力する尤度差計算ステップと、
前記チャネルごとの音声ディジタル信号と、前記チャネルごとの尤度差とを入力とし、当該チャネルごとの尤度差からチャネルごとに重み係数を計算して、当該重み係数により前記チャネルごとの音声ディジタル信号に重みづけし、当該重みづけされた全てのチャネルの音声ディジタル信号を合成して出力音声ディジタル信号として出力するチャネル統合ステップと、
前記出力音声ディジタル信号と、音響モデルと、言語モデルとを入力とし、音声認識処理を行って認識結果テキストを生成し、当該認識結果テキストを時間情報と対応付けて出力する音声認識ステップと、
前記出力音声ディジタル信号を入力とし、当該出力音声ディジタル信号を保存して保存音声信号ファイル情報を生成し、当該保存音声信号ファイル情報を時間情報と対応付けて出力する音声信号保存ステップと、
前記保存音声信号ファイル情報と、前記認識結果テキストと、前記時間情報とを入力とし、前記時間情報を用いて、前記保存音声信号ファイル情報と前記認識結果テキストとを対応付けて保存する音声/テキスト保存ステップと、
を備えることを特徴とするチャネル統合方法。
A channel integration method for performing speech recognition by selecting one channel suitable for speech recognition from a plurality of channels,
An audio input step for inputting an audio signal for each channel and converting the audio signal into an audio digital signal for each channel by analog-digital conversion;
The audio digital signal for each channel, the monophone, the audio model constructed from the monophone, and the pause model are input, the likelihood of the monophone is calculated for each channel to obtain the monophone maximum likelihood score, and the audio for each channel is obtained. The likelihood of calculating the likelihood of the model and the pose model to obtain a speech / pause model maximum likelihood score and outputting the difference between the monophone maximum likelihood score and the speech / pause model maximum likelihood score as a likelihood difference for each channel A difference calculation step;
The voice digital signal for each channel and the likelihood difference for each channel are input, a weighting factor is calculated for each channel from the likelihood difference for each channel, and the voice digital signal for each channel is calculated using the weighting factor. A channel integration step of combining the weighted digital audio signals of all the channels and outputting as an output digital audio signal;
A speech recognition step of receiving the output speech digital signal, an acoustic model, and a language model, performing speech recognition processing to generate a recognition result text, and outputting the recognition result text in association with time information;
An audio signal storage step of receiving the output audio digital signal, storing the output audio digital signal to generate stored audio signal file information, and outputting the stored audio signal file information in association with time information;
The voice / text which receives the stored voice signal file information, the recognition result text, and the time information as input, and stores the saved voice signal file information and the recognition result text in association with each other using the time information. A save step;
A channel integration method comprising:
請求項1から3の何れかに記載のチャネル統合方法であって、
前記チャネル選択ステップが、任意のチャネルの連続選択時間長に応じてチャネルごとに重み係数を計算し、当該重み係数により重みづけされたパワー値、もしくは重みづけされた尤度差を用いて当該重みづけされたパワー値、もしくは重みづけされた尤度差が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力する重みづけサブステップを、
さらに備えることを特徴とするチャネル統合方法。
The channel integration method according to any one of claims 1 to 3,
The channel selection step calculates a weighting factor for each channel according to a continuous selection time length of an arbitrary channel, and uses the power value weighted by the weighting factor or the weighted likelihood difference to calculate the weight. A weighted sub-step of selecting a voice digital signal of a channel having the maximum weighted power value or weighted likelihood difference and outputting it as an output voice digital signal,
A channel integration method, further comprising:
請求項1から3の何れかに記載のチャネル統合方法であって、
何れのチャネルも選択されない時間区間(以下、無音区間という)が発生した場合に、
前記チャネル選択ステップが、前記無音区間の直前に選択されたチャネルの当該無音区間における音声ディジタル信号と、前記無音区間の直後に選択されたチャネルの当該無音区間における音声ディジタル信号とを用いて前記無音区間を補てんして、前記無音区間における出力音声ディジタル信号として出力するマージン処理サブステップをさらに備え、
前記マージン処理サブステップは、前記無音区間の直後に選択されたチャネルの音声ディジタル信号の補てん時間長が、前記無音区間の直前に選択されたチャネルの音声ディジタル信号の補てん時間長よりも長くなるように前記無音区間を補てんすること
を特徴とするチャネル統合方法。
The channel integration method according to any one of claims 1 to 3,
When a time interval (hereinafter referred to as a silent interval) in which no channel is selected occurs
The channel selection step uses the silence digital signal in the silence period of the channel selected immediately before the silence period and the silence digital signal in the silence period of the channel selected immediately after the silence period. Further comprising a margin processing sub-step that compensates the section and outputs the output voice digital signal in the silent section,
In the margin processing sub-step, the compensation time length of the voice digital signal of the channel selected immediately after the silence interval is longer than the compensation time length of the speech digital signal of the channel selected immediately before the silence interval. A channel integration method characterized by supplementing the silent section.
請求項1から3の何れかに記載のチャネル統合方法であって、
前記音声信号保存部が、すべてのチャネルの予め定められた時間長の音声ディジタル信号を保存しておき、音声ディジタル信号に欠損が生じた場合に、前記保存した音声ディジタル信号を用いて前記欠損を補てんすること
を特徴とするチャネル統合方法。
The channel integration method according to any one of claims 1 to 3,
The audio signal storage unit stores audio digital signals having a predetermined length of time for all channels, and when the audio digital signal is lost, the audio signal is stored using the stored audio digital signal. A channel integration method characterized by supplementing.
複数のチャネルから音声認識に適した1のチャネルを選択して、音声認識を行うチャネル統合装置であって、
チャネルごとの音声信号を入力とし、当該音声信号をアナログ−ディジタル変換により、チャネルごとに音声ディジタル信号に変換して出力する音声入力部と、
前記チャネルごとの音声ディジタル信号を入力とし、当該音声ディジタル信号のパワー値をチャネルごとに計算して出力するパワー計算部と、
前記チャネルごとの音声ディジタル信号と、前記チャネルごとのパワー値とを入力とし、当該パワー値が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力するチャネル選択部と、
前記出力音声ディジタル信号と、音響モデルと、言語モデルとを入力とし、音声認識処理を行って認識結果テキストを生成し、当該認識結果テキストを時間情報と対応付けて出力する音声認識部と、
前記出力音声ディジタル信号を入力とし、当該出力音声ディジタル信号を保存して保存音声信号ファイル情報を生成し、当該保存音声信号ファイル情報を時間情報と対応付けて出力する音声信号保存部と、
前記保存音声信号ファイル情報と、前記認識結果テキストと、前記時間情報とを入力とし、前記時間情報を用いて、前記保存音声信号ファイル情報と前記認識結果テキストとを対応付けて保存する音声/テキスト保存部と、
を備えることを特徴とするチャネル統合装置。
A channel integration device that performs speech recognition by selecting one channel suitable for speech recognition from a plurality of channels,
An audio input unit that receives an audio signal for each channel, converts the audio signal into an audio digital signal for each channel by analog-digital conversion, and
A power calculator that receives the audio digital signal for each channel as input and calculates and outputs the power value of the audio digital signal for each channel;
A channel selection unit that inputs the audio digital signal for each channel and the power value for each channel, selects the audio digital signal of the channel that maximizes the power value, and outputs it as an output audio digital signal;
A speech recognition unit that receives the output speech digital signal, an acoustic model, and a language model, performs speech recognition processing to generate a recognition result text, and outputs the recognition result text in association with time information;
The output audio digital signal as an input, the output audio digital signal is saved to generate saved audio signal file information, and the saved audio signal file information is output in association with the time information;
The voice / text which receives the stored voice signal file information, the recognition result text, and the time information as input, and stores the saved voice signal file information and the recognition result text in association with each other using the time information. A storage unit;
A channel integration device comprising:
複数のチャネルから音声認識に適した1のチャネルを選択して、音声認識を行うチャネル統合装置であって、
チャネルごとの音声信号を入力とし、当該音声信号をアナログ−ディジタル変換により、チャネルごとに音声ディジタル信号に変換して出力する音声入力部と、
前記チャネルごとの音声ディジタル信号を入力とし、当該音声ディジタル信号のパワー値をチャネルごとに計算して出力するパワー計算部と、
前記チャネルごとのパワー値を入力とし、当該パワー値の正規化パワー値をチャネルごとに計算して出力するパワー正規化部と、
前記チャネルごとの音声ディジタル信号と、前記チャネルごとの正規化パワー値とを入力とし、当該正規化パワー値が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力するチャネル選択部と、
前記出力音声ディジタル信号と、音響モデルと、言語モデルとを入力とし、音声認識処理を行って認識結果テキストを生成し、当該認識結果テキストを時間情報と対応付けて出力する音声認識部と、
前記出力音声ディジタル信号を入力とし、当該出力音声ディジタル信号を保存して保存音声信号ファイル情報を生成し、当該保存音声信号ファイル情報を時間情報と対応付けて出力する音声信号保存部と、
前記保存音声信号ファイル情報と、前記認識結果テキストと、前記時間情報とを入力とし、前記時間情報を用いて、前記保存音声信号ファイル情報と前記認識結果テキストとを対応付けて保存する音声/テキスト保存部と、
を備えることを特徴とするチャネル統合装置。
A channel integration device that performs speech recognition by selecting one channel suitable for speech recognition from a plurality of channels,
An audio input unit that receives an audio signal for each channel, converts the audio signal into an audio digital signal for each channel by analog-digital conversion, and
A power calculator that receives the audio digital signal for each channel as input and calculates and outputs the power value of the audio digital signal for each channel;
A power normalization unit that takes the power value for each channel as input, calculates and outputs the normalized power value of the power value for each channel, and
A channel selection that inputs the audio digital signal for each channel and the normalized power value for each channel, selects the audio digital signal of the channel that maximizes the normalized power value, and outputs it as an output audio digital signal And
A speech recognition unit that receives the output speech digital signal, an acoustic model, and a language model, performs speech recognition processing to generate a recognition result text, and outputs the recognition result text in association with time information;
The output audio digital signal as an input, the output audio digital signal is saved to generate saved audio signal file information, and the saved audio signal file information is output in association with the time information;
The voice / text which receives the stored voice signal file information, the recognition result text, and the time information as input, and stores the saved voice signal file information and the recognition result text in association with each other using the time information. A storage unit;
A channel integration device comprising:
複数のチャネルから音声認識に適した1のチャネルを選択して、音声認識を行うチャネル統合装置であって、
チャネルごとの音声信号を入力とし、当該音声信号をアナログ−ディジタル変換により、チャネルごとに音声ディジタル信号に変換して出力する音声入力部と、
前記チャネルごとの音声ディジタル信号と、モノフォンと、モノフォンから構築した音声モデルと、ポーズモデルとを入力とし、チャネルごとにモノフォンの尤度を計算してモノフォン最尤スコアを取得し、チャネルごとに音声モデルとポーズモデルの尤度を計算して音声/ポーズモデル最尤スコアを取得し、チャネルごとに前記モノフォン最尤スコアと前記音声/ポーズモデル最尤スコアの差分を尤度差として出力する尤度差計算部と、
前記チャネルごとの音声ディジタル信号と、前記チャネルごとの尤度差とを入力とし、当該尤度差が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力するチャネル選択部と、
前記出力音声ディジタル信号と、音響モデルと、言語モデルとを入力とし、音声認識処理を行って認識結果テキストを生成し、当該認識結果テキストを時間情報と対応付けて出力する音声認識部と、
前記出力音声ディジタル信号を入力とし、当該出力音声ディジタル信号を保存して保存音声信号ファイル情報を生成し、当該保存音声信号ファイル情報を時間情報と対応付けて出力する音声信号保存部と、
前記保存音声信号ファイル情報と、前記認識結果テキストと、前記時間情報とを入力とし、前記時間情報を用いて、前記保存音声信号ファイル情報と前記認識結果テキストとを対応付けて保存する音声/テキスト保存部と、
を備えることを特徴とするチャネル統合装置。
A channel integration device that performs speech recognition by selecting one channel suitable for speech recognition from a plurality of channels,
An audio input unit that receives an audio signal for each channel, converts the audio signal into an audio digital signal for each channel by analog-digital conversion, and
The audio digital signal for each channel, the monophone, the audio model constructed from the monophone, and the pause model are input, the likelihood of the monophone is calculated for each channel to obtain the monophone maximum likelihood score, and the audio for each channel is obtained. The likelihood of calculating the likelihood of the model and the pose model to obtain a speech / pause model maximum likelihood score and outputting the difference between the monophone maximum likelihood score and the speech / pause model maximum likelihood score as a likelihood difference for each channel The difference calculator,
A channel selection unit that inputs the audio digital signal for each channel and the likelihood difference for each channel, selects the audio digital signal of the channel that maximizes the likelihood difference, and outputs it as an output audio digital signal; ,
A speech recognition unit that receives the output speech digital signal, an acoustic model, and a language model, performs speech recognition processing to generate a recognition result text, and outputs the recognition result text in association with time information;
The output audio digital signal as an input, the output audio digital signal is saved to generate saved audio signal file information, and the saved audio signal file information is output in association with the time information;
The voice / text which receives the stored voice signal file information, the recognition result text, and the time information as input, and stores the saved voice signal file information and the recognition result text in association with each other using the time information. A storage unit;
A channel integration device comprising:
複数のチャネルから音声認識に適した1のチャネルを選択して、音声認識を行うチャネル統合装置であって、
チャネルごとの音声信号を入力とし、当該音声信号をアナログ−ディジタル変換により、チャネルごとに音声ディジタル信号に変換して出力する音声入力部と、
前記チャネルごとの音声ディジタル信号と、モノフォンと、モノフォンから構築した音声モデルと、ポーズモデルとを入力とし、チャネルごとにモノフォンの尤度を計算してモノフォン最尤スコアを取得し、チャネルごとに音声モデルとポーズモデルの尤度を計算して音声/ポーズモデル最尤スコアを取得し、チャネルごとに前記モノフォン最尤スコアと前記音声/ポーズモデル最尤スコアの差分を尤度差として出力する尤度差計算部と、
前記チャネルごとの音声ディジタル信号と、前記チャネルごとの尤度差とを入力とし、当該チャネルごとの尤度差からチャネルごとに重み係数を計算して、当該重み係数により前記チャネルごとの音声ディジタル信号に重みづけし、当該重みづけされた全てのチャネルの音声ディジタル信号を合成して出力音声ディジタル信号として出力するチャネル統合部と、
前記出力音声ディジタル信号と、音響モデルと、言語モデルとを入力とし、音声認識処理を行って認識結果テキストを生成し、当該認識結果テキストを時間情報と対応付けて出力する音声認識部と、
前記出力音声ディジタル信号を入力とし、当該出力音声ディジタル信号を保存して保存音声信号ファイル情報を生成し、当該保存音声信号ファイル情報を時間情報と対応付けて出力する音声信号保存部と、
前記保存音声信号ファイル情報と、前記認識結果テキストと、前記時間情報とを入力とし、前記時間情報を用いて、前記保存音声信号ファイル情報と前記認識結果テキストとを対応付けて保存する音声/テキスト保存部と、
を備えることを特徴とするチャネル統合装置。
A channel integration device that performs speech recognition by selecting one channel suitable for speech recognition from a plurality of channels,
An audio input unit that receives an audio signal for each channel, converts the audio signal into an audio digital signal for each channel by analog-digital conversion, and
The audio digital signal for each channel, the monophone, the audio model constructed from the monophone, and the pause model are input, the likelihood of the monophone is calculated for each channel to obtain the monophone maximum likelihood score, and the audio for each channel is obtained. The likelihood of calculating the likelihood of the model and the pose model to obtain a speech / pause model maximum likelihood score and outputting the difference between the monophone maximum likelihood score and the speech / pause model maximum likelihood score as a likelihood difference for each channel The difference calculator,
The voice digital signal for each channel and the likelihood difference for each channel are input, a weighting factor is calculated for each channel from the likelihood difference for each channel, and the voice digital signal for each channel is calculated using the weighting factor. A channel integration unit that synthesizes the weighted digital audio signals of all the channels and outputs as an output digital audio signal;
A speech recognition unit that receives the output speech digital signal, an acoustic model, and a language model, performs speech recognition processing to generate a recognition result text, and outputs the recognition result text in association with time information;
The output audio digital signal as an input, the output audio digital signal is saved to generate saved audio signal file information, and the saved audio signal file information is output in association with the time information;
The voice / text which receives the stored voice signal file information, the recognition result text, and the time information as input, and stores the saved voice signal file information and the recognition result text in association with each other using the time information. A storage unit;
A channel integration device comprising:
請求項1から7の何れかに記載されるチャネル統合方法を実行すべき指令をコンピュータに対してするプログラム。   The program which gives the instruction | command which should perform the channel integration method in any one of Claim 1 to 7 with respect to a computer.
JP2010119853A 2010-05-25 2010-05-25 Channel integration method, channel integration apparatus, and program Active JP5411807B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010119853A JP5411807B2 (en) 2010-05-25 2010-05-25 Channel integration method, channel integration apparatus, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010119853A JP5411807B2 (en) 2010-05-25 2010-05-25 Channel integration method, channel integration apparatus, and program

Publications (2)

Publication Number Publication Date
JP2011248025A true JP2011248025A (en) 2011-12-08
JP5411807B2 JP5411807B2 (en) 2014-02-12

Family

ID=45413387

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010119853A Active JP5411807B2 (en) 2010-05-25 2010-05-25 Channel integration method, channel integration apparatus, and program

Country Status (1)

Country Link
JP (1) JP5411807B2 (en)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018532151A (en) * 2015-09-11 2018-11-01 アマゾン テクノロジーズ インコーポレイテッド Mediation between voice-enabled devices
JP2018537700A (en) * 2015-09-21 2018-12-20 アマゾン テクノロジーズ インコーポレイテッド Device selection to provide response
WO2019146398A1 (en) * 2018-01-23 2019-08-01 ソニー株式会社 Neural network processing device and method, and program
JP2020109498A (en) * 2018-12-06 2020-07-16 シナプティクス インコーポレイテッド System and method
WO2021100670A1 (en) * 2019-11-21 2021-05-27 パナソニックIpマネジメント株式会社 Sound crosstalk suppression device and sound crosstalk suppression method
WO2021100671A1 (en) * 2019-11-21 2021-05-27 パナソニックIpマネジメント株式会社 Acoustic crosstalk suppression device and acoustic crosstalk suppression method
JP2022120020A (en) * 2021-06-08 2022-08-17 阿波▲羅▼智▲聯▼(北京)科技有限公司 Multi-sound zone voice wake-up and recognition method and device, electronic apparatus, storage medium, and computer program
US11875820B1 (en) 2017-08-15 2024-01-16 Amazon Technologies, Inc. Context driven device arbitration
US11937054B2 (en) 2020-01-10 2024-03-19 Synaptics Incorporated Multiple-source tracking and voice activity detections for planar microphone arrays

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04212600A (en) * 1990-12-05 1992-08-04 Oki Electric Ind Co Ltd Voice input device
JP2002159086A (en) * 2000-11-21 2002-05-31 Tokai Rika Co Ltd Microphone device
JP2005055667A (en) * 2003-08-04 2005-03-03 Sony Corp Audio processing device
JP2005077678A (en) * 2003-08-29 2005-03-24 Casio Comput Co Ltd Text and voice synchronizing device and text and voice synchronization processing program
JP2005142856A (en) * 2003-11-06 2005-06-02 Oki Electric Ind Co Ltd Receiving apparatus and method
JP2009063700A (en) * 2007-09-05 2009-03-26 Nippon Telegr & Teleph Corp <Ntt> Device, method and program for estimating voice signal section, and storage medium recording the program
WO2009097417A1 (en) * 2008-01-29 2009-08-06 Qualcomm Incorporated Improving sound quality by intelligently selecting between signals from a plurality of microphones
US20100111324A1 (en) * 2008-10-31 2010-05-06 Temic Automotive Of North America, Inc. Systems and Methods for Selectively Switching Between Multiple Microphones

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04212600A (en) * 1990-12-05 1992-08-04 Oki Electric Ind Co Ltd Voice input device
JP2002159086A (en) * 2000-11-21 2002-05-31 Tokai Rika Co Ltd Microphone device
JP2005055667A (en) * 2003-08-04 2005-03-03 Sony Corp Audio processing device
JP2005077678A (en) * 2003-08-29 2005-03-24 Casio Comput Co Ltd Text and voice synchronizing device and text and voice synchronization processing program
JP2005142856A (en) * 2003-11-06 2005-06-02 Oki Electric Ind Co Ltd Receiving apparatus and method
JP2009063700A (en) * 2007-09-05 2009-03-26 Nippon Telegr & Teleph Corp <Ntt> Device, method and program for estimating voice signal section, and storage medium recording the program
WO2009097417A1 (en) * 2008-01-29 2009-08-06 Qualcomm Incorporated Improving sound quality by intelligently selecting between signals from a plurality of microphones
JP2011511571A (en) * 2008-01-29 2011-04-07 クゥアルコム・インコーポレイテッド Improve sound quality by intelligently selecting between signals from multiple microphones
US20100111324A1 (en) * 2008-10-31 2010-05-06 Temic Automotive Of North America, Inc. Systems and Methods for Selectively Switching Between Multiple Microphones

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018532151A (en) * 2015-09-11 2018-11-01 アマゾン テクノロジーズ インコーポレイテッド Mediation between voice-enabled devices
JP2018537700A (en) * 2015-09-21 2018-12-20 アマゾン テクノロジーズ インコーポレイテッド Device selection to provide response
US11922095B2 (en) 2015-09-21 2024-03-05 Amazon Technologies, Inc. Device selection for providing a response
US11875820B1 (en) 2017-08-15 2024-01-16 Amazon Technologies, Inc. Context driven device arbitration
JP7200950B2 (en) 2018-01-23 2023-01-10 ソニーグループ株式会社 NEURAL NETWORK PROCESSING APPARATUS AND METHOD, AND PROGRAM
WO2019146398A1 (en) * 2018-01-23 2019-08-01 ソニー株式会社 Neural network processing device and method, and program
JPWO2019146398A1 (en) * 2018-01-23 2021-01-28 ソニー株式会社 Neural network processing equipment and methods, and programs
JP2020109498A (en) * 2018-12-06 2020-07-16 シナプティクス インコーポレイテッド System and method
JP7407580B2 (en) 2018-12-06 2024-01-04 シナプティクス インコーポレイテッド system and method
JP7437650B2 (en) 2019-11-21 2024-02-26 パナソニックIpマネジメント株式会社 Acoustic crosstalk suppression device and acoustic crosstalk suppression method
WO2021100671A1 (en) * 2019-11-21 2021-05-27 パナソニックIpマネジメント株式会社 Acoustic crosstalk suppression device and acoustic crosstalk suppression method
JP2021081654A (en) * 2019-11-21 2021-05-27 パナソニックIpマネジメント株式会社 Acoustic crosstalk suppressor and acoustic crosstalk suppression method
WO2021100670A1 (en) * 2019-11-21 2021-05-27 パナソニックIpマネジメント株式会社 Sound crosstalk suppression device and sound crosstalk suppression method
JP7486145B2 (en) 2019-11-21 2024-05-17 パナソニックIpマネジメント株式会社 Acoustic crosstalk suppression device and acoustic crosstalk suppression method
US11937054B2 (en) 2020-01-10 2024-03-19 Synaptics Incorporated Multiple-source tracking and voice activity detections for planar microphone arrays
JP2022120020A (en) * 2021-06-08 2022-08-17 阿波▲羅▼智▲聯▼(北京)科技有限公司 Multi-sound zone voice wake-up and recognition method and device, electronic apparatus, storage medium, and computer program

Also Published As

Publication number Publication date
JP5411807B2 (en) 2014-02-12

Similar Documents

Publication Publication Date Title
JP5411807B2 (en) Channel integration method, channel integration apparatus, and program
US10783890B2 (en) Enhanced speech generation
US11710478B2 (en) Pre-wakeword speech processing
US11361768B2 (en) Utterance classifier
US11423904B2 (en) Method and system of audio false keyphrase rejection using speaker recognition
US20230230572A1 (en) End-to-end speech conversion
JP2023041843A (en) Voice section detection apparatus, voice section detection method, and program
US8392189B2 (en) Speech recognition using speech characteristic probabilities
US11823669B2 (en) Information processing apparatus and information processing method
Mirishkar et al. CSTD-Telugu corpus: Crowd-sourced approach for large-scale speech data collection
US20230260501A1 (en) Synthetic speech processing
CN102959618A (en) Speech recognition apparatus
Obuchi Multiple-microphone robust speech recognition using decoder-based channel selection
US20180082703A1 (en) Suitability score based on attribute scores
US11769491B1 (en) Performing utterance detection using convolution
JP6526602B2 (en) Speech recognition apparatus, method thereof and program
US12002444B1 (en) Coordinated multi-device noise cancellation
JP2014092751A (en) Acoustic model generating device, method for the same, and program
US11978431B1 (en) Synthetic speech processing by representing text by phonemes exhibiting predicted volume and pitch using neural networks
US11574624B1 (en) Synthetic speech processing
US11792570B1 (en) Parallel noise suppression
JP7222265B2 (en) VOICE SECTION DETECTION DEVICE, VOICE SECTION DETECTION METHOD AND PROGRAM
Junqua Sources of Variability and Distortion in the Communication Process
JPH04176244A (en) Sound information processor

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121026

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130813

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130920

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131007

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131029

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131108

R150 Certificate of patent or registration of utility model

Ref document number: 5411807

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350