JP2010026361A - Speech collection method, system and program - Google Patents
Speech collection method, system and program Download PDFInfo
- Publication number
- JP2010026361A JP2010026361A JP2008189504A JP2008189504A JP2010026361A JP 2010026361 A JP2010026361 A JP 2010026361A JP 2008189504 A JP2008189504 A JP 2008189504A JP 2008189504 A JP2008189504 A JP 2008189504A JP 2010026361 A JP2010026361 A JP 2010026361A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- speech
- microphone
- sound
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本発明は、特定の音声を収集するための音声収集方法、システム及びプログラムに関する。特に、対面販売において、販売員の音声のみを収集するための音声収集方法、システム及びプログラムに関する。 The present invention relates to a sound collection method, system, and program for collecting specific sound. In particular, the present invention relates to a voice collection method, system, and program for collecting only a salesperson's voice in face-to-face sales.
近年、企業等において、違法な行為又は反社会的な行為等によって、消費者又は取引先の信頼(信用)を失ってしまうことがあり、一旦失った信用を回復するためには多大な企業努力を要するばかりでなく、事業存続に大きな影響を与えてしまうこともある。このため、企業においては所謂コンプライアンス体制の確立が緊急課題となっている。例えば、金融サービス業界においては、コンプライアンス強化の取り組みの一環として、販売員の営業活動をモニタリングすることが行われており、一例として、電話による販売活動においては、販売員の電話対応(通話内容)をサーバ等に蓄積して、無作為にチェックする仕組みを取り入れている。また,音声認識技術と自然言語処理技術の併用によって、販売員の不適切な対応を自動で検出しようという試みもある。 In recent years, corporations may lose the trust (credit) of consumers or business partners due to illegal or anti-social acts. In addition, it may have a significant impact on business continuity. For this reason, establishment of a so-called compliance system has become an urgent issue for companies. For example, in the financial services industry, sales activities of sales staff are monitored as part of efforts to strengthen compliance. For example, sales activities by telephone are handled by telephone sales (contents of calls). Is stored on a server, etc., and a system for checking at random is incorporated. There is also an attempt to automatically detect inappropriate responses of salespersons by using both speech recognition technology and natural language processing technology.
一方,窓口で商品販売を行う所謂対面販売においては、電話における販売のように、販売員の顧客対応記録を収集する仕組みが存在しないため、電話における販売に比べてモニタリング体制の整備が遅れている。現状では、販売員が行った営業活動を書面(レポート)等で報告するという手法が採られているものの、レポートの作成に時間が掛かるばかりでなく、適切な報告が行われないこともある。 On the other hand, in the so-called face-to-face sales where products are sold at the counter, there is no mechanism for collecting salespersons' customer response records, as in the case of sales by telephone, so the development of the monitoring system is delayed compared to sales by telephone. . At present, a method of reporting sales activities carried out by salespersons in writing (reports) or the like is employed, but not only it takes time to create a report, but also proper reporting may not be performed.
従来技術では、対面販売における対策として、接話マイクを装着した販売員が顧客との会話を録音する手法が検討されているが、販売員の声のみの録音を目的としているものの実用上は顧客の音声も録音されるため、会話の録音に抵抗感を示す顧客が多く、必ずしも適切な手法とはいえない。このため、顧客から見えない場所に、(単一)指向性マイクを設置して、販売員の音声を収集することも考えられるが、標準的なマイクでは指向性が低く、顧客の声も録音してしまうことになる。指向性を向上させるため、超指向性を有するガンマイク等を用いた場合には、当該ガンマイクが一般に高価であり、そのサイズも大きいことを考慮すると、対面販売にはガンマイクを用いることは適していない。 In the conventional technology, as a measure for face-to-face sales, a method in which a salesperson wearing a close-up microphone records a conversation with a customer is being studied. Are also recorded, so many customers are reluctant to record conversations, which is not always an appropriate technique. For this reason, it is possible to install a (single) directional microphone in a location that is not visible to the customer and collect the salesperson's voice, but the standard microphone has low directivity and the customer's voice is also recorded. Will end up. In order to improve the directivity, when using a super-directive gun microphone or the like, it is not suitable to use a gun microphone for face-to-face sales, considering that the gun microphone is generally expensive and its size is large. .
そこで、従来技術では、音声信号処理技術を併用する試みとしては、送話者方向に向けて一直線上に2つの無指向性マイクロホンを配置し、一方のマイクロホンへの音圧レベルに依存して出力信号を切り替える手段を有し、これにより強い指向性を発揮するマイクロホン装置が知られている(特許文献1参照)。また、従来技術では、複数個のマイクロホン素子を有するマイクロホンアレイを用い、発話区間を検出して発話信号を取り出す技術が知られている(特許文献2参照)。
しかし、特許文献1に記載の音圧レベルの判定結果に応じて出力を切り替える手法や、特許文献2に記載の音声と雑音の成分がそれぞれ相違することを利用する技法を含む、マイクロホンアレイ等を用いてソフトウェア的に指向性を形成する従来技法は、マイクの配置において収録時には顧客の音声も収集し、対面販売において顧客の音声を除いて販売員の音声のみを収集することは困難であった。
However, a microphone array including a method of switching output according to the sound pressure level determination result described in
本発明は、対面販売において販売員と顧客の音声を分離するマイクロホンアレイの設置方法、及び分離音声に対する音声認識性能向上のための音声強調方法、及びこれを用いる対話音声の話者方向インデキシングにより、対面販売において販売員のみの音声を的確に収集する音声収集方法、システム及びプログラムを提供する。さらに、本発明は、了解を得ていない顧客の発話記録を残さず、記録が必要な販売員の声だけを確実に残す方法、システム及びプログラムを提供する。 The present invention provides a method for installing a microphone array that separates voices of a salesperson and a customer in face-to-face sales, a voice enhancement method for improving voice recognition performance for separated voices, and speaker direction indexing of dialog voices using the same. Provided are a voice collection method, system, and program for accurately collecting voices of only salespersons in face-to-face sales. Furthermore, the present invention provides a method, a system, and a program that do not leave an utterance record of an unacknowledged customer, but reliably leave only a salesperson's voice that needs to be recorded.
本発明は、上記課題に鑑み、以下のような解決手段を含む。 In view of the above problems, the present invention includes the following solutions.
(音声の到達時間差の利用)
本発明は、所定の距離を隔てて配置された2つのマイクロホン素子を有するマイクロホンアレイを用い、特定の音源からこれらのマイクロホン素子に音声が到達する時間の差、すなわち時間遅れを利用する。さらに、本発明においては、マイクロホンアレイが含む2つのマイクロホン素子を結ぶ線分が、顧客と販売員を結ぶ線分と略平行となるように配置する。例えば、上方から見て、本発明により、マイクロホンアレイは顧客と販売員とを結ぶ直線上に配置される。このような配置により、顧客又は販売員が発する音声の、2つのマイクロホン素子のそれぞれへの到達時間の差は最大に近づき得る。従って、本発明においては、複数の対面販売ブースが並ぶ状況等において、マイクロホン素子への到達時間差が必ずしも最大ではない隣接ブースからの音声等を効果的にカットし、並びに到達時間差を利用し得る配置の範囲内において販売員や顧客の姿勢や位置の変化を許容し得る。さらに、一般に、マイクロホンアレイにおいては、同位相(同じ時間遅れ)で到達する方向からの音声を区別できないという問題(鏡像位置の問題)があるが、本発明においてはマイクロホン素子の配置によりこの問題を避けることが可能である。
(Use of audio arrival time difference)
The present invention uses a microphone array having two microphone elements arranged at a predetermined distance, and uses a time difference, that is, a time delay, in which sound reaches these microphone elements from a specific sound source. Furthermore, in the present invention, the line segment connecting the two microphone elements included in the microphone array is arranged so as to be substantially parallel to the line segment connecting the customer and the salesperson. For example, as viewed from above, according to the present invention, the microphone array is arranged on a straight line connecting a customer and a salesperson. With such an arrangement, the difference in the arrival time of the voice uttered by the customer or salesperson to each of the two microphone elements can approach the maximum. Therefore, in the present invention, in a situation where a plurality of face-to-face sales booths are lined up, etc., an arrangement that can effectively cut voices from adjacent booths where the difference in arrival time to the microphone element is not necessarily the maximum, and can use the arrival time difference Within this range, changes in attitude and position of salespersons and customers can be allowed. Furthermore, in general, in a microphone array, there is a problem that the sound from the direction that arrives in the same phase (same time delay) cannot be distinguished (mirror image position problem). In the present invention, this problem is caused by the arrangement of the microphone elements. It is possible to avoid it.
(CSP係数の利用)
また、本発明は、CSP(Cross power-Spectrum Phase、白色化相互相関)係数に基づく目的話者発話区間検出により、顧客と販売員の発話を区別し、個別に音声認識を行い得る。同時に、CSP法による話者方向インデックスと音声認識結果のタイムスタンプを併用することにより、目的話者音声の録音を簡便化し、録音箇所を選択的に指定し得る。換言すれば、本発明は、方向インデックスと音声認識結果から、録音話者及び録音箇所を指定するインタフェースを有することを特徴としている。
(Use of CSP coefficient)
Further, according to the present invention, by detecting a target speaker utterance section based on a CSP (Cross power-Spectrum Phase, whitening cross-correlation) coefficient, it is possible to distinguish between a customer and a salesperson and perform voice recognition individually. At the same time, by using the speaker direction index by the CSP method and the time stamp of the speech recognition result, the recording of the target speaker voice can be simplified and the recording location can be selectively designated. In other words, the present invention is characterized by having an interface for designating a recording speaker and a recording location from the direction index and the speech recognition result.
(音声強調処理)
さらに、本発明は前記CSP係数に基づいて利得調整、すなわち音声強調を行うことによって高い音声認識性能を実現する。本発明では、CSP係数に基づく利得調整処理を、代表的な雑音除去手法であるスペクトル減算(Spectrum Subtraction、SSと略称)処理及びフロアリング(Flooring)処理とを組み合わせた処理手順に結び付けている。具体的には、SS処理とFlooring処理との間で利得調整を行う。この一連の処理によって、音声分離と同時に音声強調を行い、ソフトウェア処理として実用的な音声認識性能を低コストに実現する。
(Speech enhancement)
Furthermore, the present invention realizes high speech recognition performance by performing gain adjustment, that is, speech enhancement based on the CSP coefficient. In the present invention, gain adjustment processing based on the CSP coefficient is linked to a processing procedure that combines spectral subtraction (abbreviated as SS) processing and flooring processing, which are typical noise removal techniques. Specifically, gain adjustment is performed between the SS process and the flooring process. Through this series of processing, speech enhancement is performed simultaneously with speech separation, and practical speech recognition performance as software processing is realized at low cost.
本発明に係る、音声収集方法の実施手段には、音声信号処理の機能を有するコンピュータ装置、デジタル信号処理装置、デジタル録音装置等を用い得る。当該コンピュータ装置等は、販売員及び顧客の声に基づく音声信号の収録、収録された音声信号に対するCSP係数の算出等、本発明に係る音声収集方法のための諸段階を実施可能なものを任意に用い得る。 A computer device, a digital signal processing device, a digital recording device, or the like having a function of voice signal processing can be used as the means for implementing the voice collecting method according to the present invention. The computer apparatus or the like is arbitrarily capable of performing various steps for the voice collecting method according to the present invention, such as recording a voice signal based on the voices of salespeople and customers, and calculating a CSP coefficient for the recorded voice signal. Can be used.
本発明は、有音声区間のみを収集する音声収集技術、音声の明瞭度や聞きやすさを向上するために信号処理の周波数特性又は利得を調節する音声信号処理技術等の、既存の技術と組み合わせることができ、そのように組み合わせた技術もまた、本発明の技術範囲に含まれる。同様に、本発明の技法を含む音声収集機器、本発明の技法を含み可搬型コンピュータ装置等に組み込まれる音声収集機能、本発明の技法を含む複数の機器を協動させる音声収集システム等も、本発明の技術範囲に含まれる。さらに、本発明の技法は、音声収集のための諸段階を、FPGA(現場でプログラム可能なゲートアレイ)、ASIC(特定用途向け集積回路)、これらと同等のハードウェアロジック素子、プログラム可能な集積回路、又はこれらの組み合わせが記憶し得るプログラムの形態、すなわちプログラム製品として提供し得る。具体的には、データ入出力、データバス、メモリバス、システムバス等を備えるカスタムLSI(大規模集積回路)の形態として、本発明に係る販売員音声収集装置等を提供でき、そのように集積回路に記憶されたプログラム製品の形態も、本発明の技術範囲に含まれる。 The present invention is combined with existing technologies such as a speech collection technology that collects only voiced sections, and a speech signal processing technology that adjusts frequency characteristics or gain of signal processing to improve speech intelligibility and ease of hearing. Such combined techniques are also within the scope of the present invention. Similarly, a voice collecting device including the technique of the present invention, a voice collecting function incorporated in a portable computer device including the technique of the present invention, a voice collecting system for cooperating a plurality of devices including the technique of the present invention, etc. It is included in the technical scope of the present invention. In addition, the technique of the present invention provides the steps for voice collection, FPGA (field programmable gate array), ASIC (application specific integrated circuit), equivalent hardware logic elements, programmable integration. It may be provided as a program form that can be stored in the circuit or a combination thereof, that is, as a program product. Specifically, the salesperson voice collection device according to the present invention can be provided as a form of a custom LSI (large scale integrated circuit) having a data input / output, a data bus, a memory bus, a system bus, and the like. The form of the program product stored in the circuit is also included in the technical scope of the present invention.
本発明によれば、少なくとも第1及び第2のマイクロホンを備え第1及び第2のマイクロホンを所定の距離離して配置したマイクロホンアレイを用いて、第1及び第2のマイクロホンで受けた音声の信号をそれぞれ離散フーリエ変換して、音声の到来方向に関連する複数のCSP係数を求め、この複数のCSP係数より複数の音声の信号を検出した後、求めた複数の音声の信号から第1及び第2のマイクロホンを結ぶ線分と到来方向のなす角度に応じて規定された音声方向インデックスを検出して、検出した音声方向インデックスにより、検出した複数の音声の信号から目的音声の信号を抽出するようにしたので、目的音声のみを確実に抽出して収集することができるという効果がある。さらに、本発明は、了解を得ていない顧客の発話記録を残さず、記録が必要な販売員の音声だけを確実に残すことができるという効果がある。また音声分離と同時に、SS処理、CSP係数による利得調整処理、Flooring処理という一連のステップからなる音声強調処理を行うことによって、後続の音声認識性能を高めている。 According to the present invention, an audio signal received by the first and second microphones using the microphone array including at least the first and second microphones and the first and second microphones arranged at a predetermined distance. Are respectively subjected to discrete Fourier transform to obtain a plurality of CSP coefficients related to the direction of arrival of the voice, and after detecting a plurality of voice signals from the plurality of CSP coefficients, the first and second signals are obtained from the obtained plurality of voice signals. A speech direction index defined according to an angle formed by a line connecting the two microphones and the direction of arrival is detected, and a target speech signal is extracted from a plurality of detected speech signals based on the detected speech direction index. Therefore, there is an effect that only the target voice can be reliably extracted and collected. Further, the present invention has an effect that it is possible to reliably leave only the voice of the salesperson who needs to be recorded without leaving the utterance record of the customer who does not obtain the consent. Simultaneously with speech separation, subsequent speech recognition performance is enhanced by performing speech enhancement processing including a series of steps of SS processing, gain adjustment processing using CSP coefficients, and flooring processing.
以下、本発明の実施形態について図を参照しながら説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[音声収集システム]
図1は、本発明の一実施形態に係る音声収集システムの一例を概略的に示す図である。図1において、音声収集システム10は、マイクロホンアレイ11、目的音声抽出装置12、及び顧客対話記録サーバ13を有しており、マイクロホンアレイ11は2つのマイクロホン11a及び11bを備え、これらは例えば市販入手可能な一体型又は一組のステレオマイク等でもよい。目的音声抽出装置12の詳細は、図7を用いて後述する。
[Audio collection system]
FIG. 1 is a diagram schematically illustrating an example of a voice collection system according to an embodiment of the present invention. In FIG. 1, a
図1の例では、顧客21、販売員22及びテーブル14等を上方から眺めて示す。マイクロホンアレイ11は、上方から見て顧客21と販売員22とを結ぶ直線上にほぼ位置するように配置される。すなわち、マイクロホン11a及び11bを結ぶ線分と、顧客21と販売員22とを結ぶ線分とがほぼ並行となるように、マイクロホンアレイ11を配置する。これにより、顧客又は販売員が発する音声の、2つのマイクロホン素子のそれぞれへの到達時間の差は最大になり得る。このように配置することにより、本発明においては、複数の対面販売ブースが横並びする状況等において、マイクロホン素子への到達時間差が必ずしも最大ではない隣接ブースからの音声等を効果的にカットし得る。
In the example of FIG. 1, the
また、図示の例では、CSP係数に基づいて目的話者発話区間検出を行って顧客と販売員の発話を区別する。具体的には、2つのマイクロホンで受けた音声信号についてCSP係数を計算し、CSP係数が大きくなる区間を目的話者の発話区間と見なして目的音声の信号を抽出する。 In the illustrated example, the target speaker utterance section is detected based on the CSP coefficient to distinguish the utterances of the customer and the salesperson. Specifically, CSP coefficients are calculated for the speech signals received by the two microphones, and the target speech signal is extracted by regarding the section where the CSP coefficient is large as the speech section of the target speaker.
さらに、抽出された音声信号は、SS処理とFlooring処理の間で、CSP係数による利得調整を行うことによって音声強調処理を実施する。この音声強調処理は音声認識性能を高めるための処理であり、CSP係数による目的話者音声抽出と、音声強調処理を合わせてAFE(ASR Front−end for speech Enhancement、ASRは自動音声認識を意味するAutomatic Speech Recognitionの略称)と称する。本実施の形態では、AFEを用いて分離・強調した後の音声信号について個別に音声認識を行い、後述するように、CSP手法による話者方向インデックスと音声認識結果のタイムスタンプを用いて、目的話者の音声信号の録音を簡便化して、録音箇所を選択的に指定する。 Further, the extracted speech signal is subjected to speech enhancement processing by performing gain adjustment using a CSP coefficient between the SS processing and the flooring processing. This voice enhancement process is a process for improving the voice recognition performance. AFE (ASR Front-end for speech Enhancement, ASR) means automatic voice recognition by combining the target speaker voice extraction by the CSP coefficient and the voice enhancement process. It is referred to as “Automatic Speech Recognition”. In the present embodiment, speech recognition is performed individually for speech signals that have been separated and emphasized using AFE, and, as will be described later, by using the speaker direction index by the CSP method and the time stamp of the speech recognition result, Simplify recording of the speaker's voice signal and selectively specify the recording location.
図1に示すように、マイクロホンアレイ11は、上方から見てマイクロホン11a及び11bが顧客21と販売員22とを結ぶ直線上にほぼ位置するように配置されればよい。マイクロホンアレイ11は、テーブル14の略中央に置かれてもよく、テーブル14の略中央に埋め込まれてもよい。
As shown in FIG. 1, the
図2は、マイクロホンに対する音声到来方向を示す図である。図2において、マイクロホン11a及び11bは距離dだけ離れて配置されているものとすると、マイクロホン11a及び11bを結ぶ直線と音声到来方向とのなす角度θは、数1で示される。
FIG. 2 is a diagram showing the voice arrival direction with respect to the microphone. In FIG. 2, assuming that the
[音声強調処理(AFE)]
次いで、本発明に係る音声収集システム等においては、CSP係数を算出し、これを用いて音声強調処理を実施し得る。具体的には、音声強調処理は、SS処理とFlooring処理においてCSP係数を用いて利得調整を実施し、これらにより販売員の音声を特定する性能や、音声認識の性能を向上し得る。以下、具体的な音声処理手段の構成要素及びその関係について例示する。
[Speech enhancement processing (AFE)]
Next, in the voice collection system or the like according to the present invention, the CSP coefficient can be calculated and the voice enhancement process can be performed using the CSP coefficient. Specifically, in the speech enhancement process, gain adjustment is performed using the CSP coefficient in the SS process and the flooring process, so that the performance of identifying the salesperson's voice and the performance of speech recognition can be improved. Hereinafter, specific components of the audio processing means and their relation will be exemplified.
図3は、本発明の一実施形態に係る、目的音声抽出装置12の構成を示す図である。目的音声抽出装置12は、マイクロホンアレイ11に含まれるマイクロホン11a及び11bで受けた音声信号を入力とし、離散フーリエ変換処理部105及び106、CSP係数算出部110、群遅延アレイ処理部120、雑音推定部130、SS処理部140、利得調整処理部150、フロアリング処理部160等を適宜含む。離散フーリエ変換処理部105及び106の処理は、2つのマイクロホン11a及び11bからの信号を適宜増幅し、所定の時間幅を有するフレームに分割し、適宜周波数帯域を制限する等、デジタル音声信号処理における公知の技法を含み、入力された信号から複素離散スペクトルを出力し得る。
FIG. 3 is a diagram showing a configuration of the target
図3に示すCSP係数算出部110においては、前記複素離散スペクトルからCSP係数を算出する。ここで、CSP係数とは、周波数領域で計算される2チャネル信号間の相互相関係数であって、次の数2により算出される。
In the CSP
次いで、群遅延アレイ処理部120において、θ方向から到来する信号を少なくとも2つのマイクロホンで受音し、それぞれを同相化して加算することにより、θ方向から到来する信号を強調するものである。よって、θ方向以外から到来する信号は、同相化されないために強調されない。よって、θ方向に感度が高く、それ以外の方向に感度が低いという指向性を形成することができる。
Next, in the group delay
群遅延アレイ処理部120の代わりにも、適応型アレイ処理で雑音や残響の方向に対して死角を形成することもできる。さらには、その他のアレイ処理によって代替してもかまわない。また、これらのアレイ処理を省略して、すなわち素通りさせて、2つのマイクロホンで受けた音声信号のうち、どちらか片方の信号そのままを利用することもできる。
Instead of the group delay
次いで、上述のように算出されたCSP係数を用い、音声強調処理が実施される。具体的には、音声強調処理は、SS処理とFlooring処理においてCSP係数を用いて利得調整を実施する。典型的には、SS処理は次式で表される減算処理である。
すなわち、例えばマイクロホン11a及び11bで受けた2つの入力信号の両方についてアレイ処理で統合された信号、又は当該2つの入力信号のいずれか一方であるXω(T)は、雑音推定部130に入力され、雑音のパワースペクトルUωが適宜推定される。αは減算定数であり、例えば1に近い値(例えば、0.90)等の任意の値をとることができる。
That is, for example, a signal integrated by array processing for both of the two input signals received by the
次いで、次式のように適宜利得調整を実施し得る。すなわち、利得調整は、上述のSS処理後の減算スペクトルYω(T)にCSP係数を掛けることで行う。
さらに、次式のようにフロアリング(Flooring)処理を実施する。すなわち、フロアリング処理とは実データに含まれる小さな値をそのまま用いずに適当な数値に置き換えることを指す。
通常、SS処理とフロアリング処理はこの手順を守って用いられるが、両処理の間にCSP係数による利得調整を導入したことが本発明の1つのポイントである。以上のようにして得られる出力Zω(T)は、サーバ装置等に記憶するための販売員の音声信号、又は音声認識手段への入力等に用い得る。図3においては、2つのマイクロホン11a及び11bを用いて観測し得る音声信号の一方を出力に用いる例を示したが、これに限らず、本発明に係る音声収集方法は、図8を用いて後述するように、マイクロホンアレイ11に到達する方向の異なる2つの音声に対して、それぞれ受けた音声信号ごとに、記録又は音声認識等のための出力を得ることが可能である。記録又は音声認識等のための出力は、図7を用いて後述するように、音声認識等に用いることが可能である。
Normally, the SS process and the flooring process are used in compliance with this procedure, but it is one point of the present invention that a gain adjustment by a CSP coefficient is introduced between the two processes. The output Zω (T) obtained as described above can be used as a salesperson's voice signal to be stored in a server device or the like, or input to voice recognition means. FIG. 3 shows an example in which one of the sound signals that can be observed using the two
[話者方向インデックス]
図4はマイクロホンの位置に対する話者方向インデックスの一例を示す図である。マイクロホンアレイ11に含まれるマイクロホン11a及び11bを結ぶ方向ベクトルを仮定すると、話者からの音声が到達する方向は、マイクロホンアレイ11を中心とする当該方向ベクトルに対する方位角の範囲として区別し得る。例えば、マイクロホン11aからマイクロホン11bの方向に沿って到達する音声は、当該方向ベクトルと略平行であり、方位角の余弦の値は+1に近い(図4に示す話者方向インデックスが+7の領域)。また例えば、マイクロホン11bからマイクロホン11aの方向に沿って到達する音声は、当該方向ベクトルと逆平行に近く、方位角の余弦の値は−1に近い(図4に示す話者方向インデックスが−7の領域)。数1に示したように、マイクロホン間隔d及び音速cが与えられると、到達時間差τは角度θに依存するので、図4に示す話者方向インデックスは、到達時間差τの情報を含む。
[Speaker Direction Index]
FIG. 4 is a diagram showing an example of the speaker direction index with respect to the position of the microphone. Assuming a direction vector connecting the
マイクロホンアレイ11に対して直角の方向からマイクロホン11a及び11bに到来する音声には到来時間差はなく、ここでは、この方向の話者方向インデックスは0と表される。つまり、前述のように、角度θは数1で表され、到来サンプル数をx、サンプリング周波数をfとすると、τ=x/fで表されるから、いまサンプリング周波数を22050Hz、マイクロホン間の距離d=12.5cmとすると、x=0、つまり、話者方向インデックス=0であると、音速を340m/sとすれば、角度θ=90°となる。
There is no difference in arrival time between voices arriving at the
また、図4において,話者方向インデックス+1(又は−1)は、マイクロホン11a及び11bに到達する音声が1サンプルだけずれている範囲を表しており(つまり、X=1であり)、この場合には、角度θ=82.9°となる。
In FIG. 4, the speaker direction index +1 (or -1) represents a range in which the sound reaching the
同様にして、話者方向インデックス+2〜+7(又は−2〜−7)は、それぞれマイクロホン11a及び11bに到達する音声が1〜7サンプルだけずれている範囲を表している。そして、AFEにおいては、マイクロホン11a及び11bに入力される音声の到来時間差を考慮したCSP係数を用いて目的音を抽出する。ここで、x=+7においては角度θ=30.3°となり、x=−7においては角度θ=149.7°となる。従って、マイクロホン11a及び11bを結ぶ直線方向には約30°の範囲を同一の音声到達方向として許容し得る。このように、本発明においては、到達時間差を利用し得る配置の範囲内において販売員や顧客の姿勢や位置の変化を許容し得るという特徴がある。
Similarly, the speaker direction indexes +2 to +7 (or −2 to −7) represent ranges in which sounds reaching the
いま、話者方向インデックス=0(例えば、右側)の方向に目的話者がいるとすると、話者方向インデックス=0にいる目的話者が発話した場合に、前述のように、マイクロホン11a及び11bで受けた音声信号には時間遅れがなく、両音声信号の相関が高くなる。このため、CSP係数φ(0,T)は大きくなる。
Assuming that there is a target speaker in the direction of the speaker direction index = 0 (for example, the right side), when the target speaker in the speaker direction index = 0 speaks, as described above, the
一方、例えば、話者方向インデックス=+4(例えば、図中右側)の方向から音声が到来する場合、マイクロホン11aから4サンプル分遅れてマイクロホン11bに音声が到達することになる。このため、φ(0,T)は小さくなる(この際、φ(4,T)が大きくなる)。
On the other hand, for example, when the voice comes from the direction of the speaker direction index = + 4 (for example, the right side in the figure), the voice arrives at the
従って、話者方向インデックス=0の方向から到来する音声のみを抽出したい場合には、φ(0,T)の値をトラッキングして、φ(0,T)が大きくなる区間を抽出すればよいことになる。但し、AFEでは、マイクロホン11a及び11bに同一の時間差で到来する方向、つまり、マイクロホン11a及び11bを結ぶ軸に対して対象の方向から到来する音声も受信することになる。
Therefore, when it is desired to extract only the voice coming from the direction of the speaker direction index = 0, the value of φ (0, T) is tracked and the section where φ (0, T) increases is extracted. It will be. However, in AFE, the direction of arrival in the
例えば、話者方向インデックス=+4に着目すると、図中右側の話者方向インデックス=+4から到来する音声と図中左側の話者方向インデックス=+4から到来する音声を区別することができないことになる。よって、鏡像位置の問題を受けないようにマイクロホン11a及び11bを配置することが必要となる。
For example, when attention is paid to the speaker direction index = + 4, it is not possible to distinguish between voices coming from the right speaker direction index = + 4 and voices coming from the left speaker direction index = + 4 in the figure. . Therefore, it is necessary to arrange the
ところで、話者(つまり、ここでは顧客21と販売員22)は、テーブル14を挟んで向かい合って着座した際、横方向にずれて(つまり、横方向において広い範囲に)座る可能性があり、さらに対話中においても着座位置や姿勢が変化することが多い。このため、目的話者方向に対してある程度の範囲の音声を収音できる必要がある。
By the way, when a speaker (that is,
超指向性マイクロホンは、目的話者の音声信号のみを録音するという観点からは高い効果が得られるが、一般に高価格であり、さらに、話者位置の変動に対処することが難しく、着座位置によって収音性能が極端に変化してしまう。加えて、超指向性マイクロホンはそのサイズが大きく、目標方向とは逆方向にも鋭い指向性を有する。このため、ブースのレイアウトとマイクロホンとの配置関係が極めて難しくなってしまう。 Superdirective microphones are highly effective from the viewpoint of recording only the target speaker's voice signal, but are generally expensive and difficult to deal with variations in speaker position, depending on the seating position. Sound collection performance will change drastically. In addition, the super-directional microphone is large in size and has a sharp directivity in the direction opposite to the target direction. For this reason, the layout relationship between the booth layout and the microphone becomes extremely difficult.
一方、単一指向性マイクロホンを用いた場合には、指向性の精度がそれほど高くないため、周囲の環境音や隣のブースの会話をも録音してしまうことになる。なお、単一指向性マイクロホンも比較的高価格である。 On the other hand, when a unidirectional microphone is used, the directivity accuracy is not so high, so that ambient ambient sounds and conversations in the adjacent booth are also recorded. Unidirectional microphones are also relatively expensive.
図5はマイクロホンの指向性による分類を示す図であり、図5(a)に示す無指向性マイクロホンは360度全ての方向に対して同感度を有し、図5(b)に示す双指向性マイクロホンは正面とその反対側に対して感度がよい。また、図5(c)に示す単一指向性マイクロホンは正面方向のみの音声に対して感度がよい。図5(d)に示す鋭指向性マイクロホン及び図5(e)に示す超指向性マイクロホンはそれぞれ単一指向性よりも指向特性を鋭くしたものである。 FIG. 5 is a diagram showing classification by microphone directivity. The omnidirectional microphone shown in FIG. 5 (a) has the same sensitivity in all directions of 360 degrees, and the bidirectional design shown in FIG. 5 (b). The sensitive microphone is sensitive to the front and the opposite side. In addition, the unidirectional microphone shown in FIG. 5C is sensitive to sound only in the front direction. The sharp directional microphone shown in FIG. 5D and the super directional microphone shown in FIG. 5E each have sharper directional characteristics than unidirectional.
AFEを用いた場合には、図4に示すように、マイクロホンアレイ11の軸方向(+7,−7)に関して比較的広いローブが形成され、例えば、話者方向インデックス=+7に販売員22、話者方向インデックス=−7に顧客21が位置すると、軸方向(+7,−7)においてはそのローブが広いから、顧客21及び販売員22の姿勢や位置が多少ずれてもよく、そして、当該ローブの範囲以外から到達する音声を効果的にカットすることができる。
When AFE is used, as shown in FIG. 4, a relatively wide lobe is formed with respect to the axial direction (+7, -7) of the
そして、AFEを用いれば、マイクロホンの指向性/無指向性が関係なくなり、どのような指向性のマイクフォンも用いることができる結果、マイクロホンに要するコストも低く抑えることができる。 When AFE is used, the directivity / omnidirectionality of the microphone is irrelevant, and any directivity microphone can be used. As a result, the cost required for the microphone can be kept low.
[マイクロホンアレイの配置]
図6に、本発明の一実施形態に係る、マイクロホンアレイの配置の例を示す。前述のように、AFEを用いた際には鏡像位置の問題があるので、マイクロホンの位置に配慮する必要があり、例えば、図6に符号Aで示す位置(隣のブース16との敷居17等)にマイクロホンアレイ11を配置した場合には、隣のブース16の音声まで同じように抽出してしまうことがある。
[Arrangement of microphone array]
FIG. 6 shows an example of the arrangement of microphone arrays according to an embodiment of the present invention. As described above, since there is a problem of the mirror image position when using AFE, it is necessary to consider the position of the microphone. For example, the position indicated by symbol A in FIG. 6 (the
このため、本実施の形態では、図6において符号Bで示す位置(例えば、テーブル15上)にマイクロホンアレイ11を設置して、上述の問題を回避する。本実施の形態におけるマイクロホンアレイ11の設置については、発声者の方向を細かい単位で正確に検出しづらくなるけれども、販売員22の音声のみを収集するという点からは、何ら問題はない。もちろん、隣接ブースからの到来音声がない環境においては、例えば、図6に符号Aで示す位置にマイクを配置し、本発明のAFEによる音声強調に関わる部分のみを適用する実施形態も想定し得る。
For this reason, in this embodiment, the
[目的音声抽出装置]
図7は、図1に示す目的音声抽出装置12を詳細に示すブロック図である。図7において、いま販売員22と顧客21が1対1で対話しているものとする。目的音声抽出装置12は、発話区間インデックス検出処理部31、第1の音声認識部32、第2の音声認識部33、統合選択部34、及び録音範囲抽出部35を有しており、発話区間インデックス検出処理部31にはマイクロホン11a及び11bから受けたそれぞれの音声信号が入力される。
[Target voice extraction device]
FIG. 7 is a block diagram showing in detail the target
図7においては、マイクロホン11aは販売員22側に位置し、マイクロホン11bは顧客21側に位置しているものとし、マイクロホン11a(L−ch)で受けた音声信号S1(t)、及びマイクロホン11b(R−ch)で受けた音声信号S2(t)が入力されるものとする。なお、ここでは、いずれのマイクロホンからの入力も、図示しないA/D変換部によって所定のサンプリング周波数でサンプリングされて、デジタル信号として発話区間インデックス検出処理部31に与えられる。発話区間インデックス検出処理部31の動作の詳細は、図8を用いて後述する。
In FIG. 7, it is assumed that the
次いで、本発明に係る目的音声抽出装置12は、音声認識部32、33を用い、発話区間インデックス検出処理部31から出力される、分離された音声信号である販売員の音声信号及び顧客の音声信号のそれぞれに対して、適宜音声認識の動作を実施し、認識結果及びタイムスタンプを得る。ここで、タイムスタンプとは音声認識部32、33が出力する時間情報等である。タイムスタンプは後続の段階において認識結果を統合する際の時系列情報となり得る。
Next, the target
次いで、本発明に係る目的音声抽出装置12は、統合選択部34を用い、音声認識の結果を統合し得る。具体的には、話者の区別、音声認識の結果、タイムスタンプ等が相互に関連付けられたデータが生成され得る。
Next, the target
次いで、本発明に係る目的音声抽出装置12は、録音範囲抽出部35により、話者方向インデックス、音声認識結果、タイムスタンプ等の情報を元に、所定の又は指定の時間領域に含まれる音声信号を切り出して適宜サーバ装置等に保存し得る。本発明においては、販売員又は顧客のそれぞれについて個別に音声認識を実施することにより、録音部分を指定する際には、両者の対話内容を確認し得る。また、不必要な部分の録音を避けることも可能であり、サーバ装置等の資源を効率的に利用し得る。
Next, the target
[発話区間インデックス検出処理部31の処理]
図8は発話区間インデックス検出処理部31における処理を説明するためのフロー図である。発話区間インデックス検出処理部31では、音声信号を取得して(ステップS1)、当該音声信号がマイクロホン11aからの入力であるか否かを判定する(ステップS2)。マイクロホン11a(第1のマイクロホン)からの入力であれば、販売員デジタル音声入力信号ついて、例えば、ハニング窓又はハミング窓による窓掛け処理が行われ、販売員窓掛け処理済信号とされる(ステップS3)。続いて、販売員窓掛け処理済信号は、離散フーリエ変換処理によって周波数領域に変換されて販売員周波数領域信号とされ(ステップS4)、図中破線の囲みで示す処理に移行する。同様に、ステップS2において、マイクロホン11b(第2のマイクロホン)からの入力であると判定されと、顧客デジタル音声入力信号について、同様にして、窓掛け処理(ステップS5)、離散フーリエ変換処理(ステップS6)が行われて、顧客周波数領域信号とされる。
[Processing of Speech Section Index Detection Processing Unit 31]
FIG. 8 is a flowchart for explaining processing in the utterance section index
発話区間インデックス検出処理部31では、前述したように、話者方向インデックスを検出し、販売員周波数領域信号、顧客周波数領域信号、及び話者方向インデックスに基づいて、つまり、数1に基づいてCSP係数を算出する(ステップS7)。
As described above, the speech section index
続いて、販売員周波数領域信号と顧客周波数領域信号について、販売員側遅延和アレイ処理を行って(ステップS8)、販売員の音声信号を強調して、販売員強調信号とする。同様にして、販売員周波数領域信号と顧客周波数領域信号について、顧客側遅延和アレイ処理を行って(ステップS9)、顧客の音声信号を強調して、顧客強調信号とする。 Subsequently, the salesperson side delay sum array processing is performed on the salesperson frequency domain signal and the customer frequency domain signal (step S8), and the salesperson's voice signal is emphasized to obtain a salesperson enhancement signal. Similarly, the customer side delay sum array processing is performed on the salesperson frequency domain signal and the customer frequency domain signal (step S9), and the customer's voice signal is emphasized to obtain a customer emphasized signal.
次に、販売員強調信号は、スペクトルサブトラクション処理(ステップS10)において雑音が取り除かれて、さらに、CSP係数を用いて利得調整処理(ステップS11)を行った後、適宜フロアリング処理(ステップS12)を実施し、販売員側の音声信号を得る。 Next, the salesperson emphasis signal is subjected to spectrum floor subtraction processing (step S10), noise is removed, and after performing gain adjustment processing (step S11) using the CSP coefficient, flooring processing (step S12) is performed as appropriate. To obtain a salesperson's voice signal.
同様にして、顧客強調信号は、スペクトルサブトラクション処理(ステップS13)において雑音が取り除かれて、さらに、CSP係数を用いて利得調整処理(ステップS14)を行った後、適宜フロアリング処理(ステップS15)を実施し、顧客側の音声信号を得る。 Similarly, the customer-enhanced signal is subjected to a flooring process (step S15) after the noise is removed in the spectral subtraction process (step S13) and the gain adjustment process (step S14) is further performed using the CSP coefficient. To obtain the customer's voice signal.
さらに、発話区間インデックス検出処理部31では、前述の数1に示すCSP係数に基づいた発話区間検出処理を行って、前述のようにして得られた販売員側の音声信号と顧客側の音声信号をそれぞれ独立のチャネルとして一時保存する(発話区間検出処理に当たっては、前述の目的音抽出手法によるアルゴリズムが用いられることになる)。ここでは、前述したように、目的音の分離とともに話者方向インデックスも検出し、分離した音声信号と話者方向インデックスとを関連付けておく。
Further, the utterance section index
発話区間インデックス検出処理部31は、販売員側の音声信号及び当該音声信号の話者方向インデックスを第1の音声認識部32に与えるとともに、録音範囲抽出部35に与える。また、発話区間インデックス検出処理部31は、顧客側の音声信号及び当該音声信号の話者方向インデックスを第2の音声認識部33に与えるとともに、録音範囲抽出部35に与える。
The utterance section index
第1の音声認識部32では、販売員側の音声信号について音声認識を行って、認識結果とタイムスタンプを得る(販売員音声認識結果及び販売員タイムスタンプを得る)。また、第2の音声認識部33では、顧客側の音声信号について音声認識を行って、認識結果とタイムスタンプを得る(顧客音声認識結果及び顧客タイムスタンプを得る)。ここで、タイムスタンプとは、第1の音声認識部32及び第2の音声認識部33において出力される時間情報であり、認識結果を統合する際の時系列情報として用いられる。
The first
前述の販売員音声認識結果及び販売員タイムスタンプと顧客音声認識結果及び顧客タイムスタンプとは、統合選択部34に与えられ、ここで、これら音声認識結果を統合して、表1に示す対話表を得る(なお、この対話表は、例えば、HTML形式でユーザに提示するようにしてもよい)。
The salesperson voice recognition result, salesperson time stamp, customer voice recognition result, and customer time stamp described above are provided to the
この対話表から所望の音声信号の部分を録音部として選択すると、統合選択部34は目的話者録音範囲(つまり、タイムスタンプで区切られた範囲)を生成し、録音範囲抽出部35に送る。録音範囲抽出部35では、話者方向インデックスと目的話者録音範囲に基づいて該当する区間(範囲)の音声信号を抽出し、顧客対話記録サーバ13に販売員音声として保存する。
When a desired voice signal portion is selected as a recording unit from the dialogue table, the
本実施の形態では、上述のようにして、話者方向インデックス、音声認識結果、及びタイムスタンプを用いて、録音区間を決定するようにしており、各話者について個別に音声認識を行うことによって録音部分を指定する際には、両者の対話内容を確認しながら録音部分の指定を行うことができる。 In the present embodiment, as described above, the recording interval is determined using the speaker direction index, the speech recognition result, and the time stamp, and by performing speech recognition for each speaker individually, When specifying the recording part, the recording part can be specified while confirming the content of the dialogue between the two.
また、本実施の形態においては、不必要な部分の録音を避けることができる結果、顧客対話記録サーバ13におけるディスク容量を低減することができ、効率的である。
Further, in the present embodiment, recording of unnecessary portions can be avoided. As a result, the disk capacity in the customer
ここで、マイクロホンの種類とAFEについて、顧客の音声信号の削減という観点から比較を行った(評価試験を行った)。評価実験には、模擬対面販売形式で収集した音声信号を用いた。評価試験では、縦(販売員と顧客間の方向)100cmのテーブルの両側に、販売員役と顧客役の話者がそれぞれ1名ずつ着席して、投資信託に関する内容を話しているものとする。 Here, the types of microphones and AFE were compared from the viewpoint of reducing the customer's voice signal (an evaluation test was performed). In the evaluation experiment, voice signals collected in a simulated face-to-face sales format were used. In the evaluation test, it is assumed that one person who speaks as a salesperson and one customer role sits on both sides of a vertical (salesperson-customer) 100cm table and talks about the contents of the investment trust. .
対話は、販売員、顧客、そして、販売員の順番で発話した内容を1セットとし、予め定めた標準位置、標準位置から左右に少しずれた位置、テーブルに極端に接近した位置の3ケースで各3セットずつ音声を収録した。マイクロホンはSony(登録商標)の無指向性マイクロホン(Sony ECM−55B)を2つ用いてマイクロホンアレイを構成し、販売員役と顧客役の中央に配置した。 The dialogue consists of three cases: a standard position, a position slightly deviated from the standard position to the left and right, and a position that is extremely close to the table. Three sets of each were recorded. A microphone array was configured using two Sony (registered trademark) omnidirectional microphones (Sony ECM-55B), and the microphone array was placed in the center of the salesperson role and the customer role.
比較のため,単一指向性マイク(AKG400)をそれぞれの話者の方向に向けて設置して、両話者の音声を収集した。マイクロホン間の距離は、指向性及び無指向性ともに共に12.5cmとした。この評価試験では、無指向性マイクロホンで受けた音声信号でAFEを行った。 For comparison, a unidirectional microphone (AKG400) was installed in the direction of each speaker, and the voices of both speakers were collected. The distance between the microphones was 12.5 cm for both directivity and non-directivity. In this evaluation test, AFE was performed with an audio signal received by an omnidirectional microphone.
ここでは、販売員の音声信号のみを抽出して、顧客の音声信号を記録として残さないようにするため、顧客の音声信号を雑音とみなして、雑音削減率(NRR:Noise Reduction Rate)によって評価を行った。この際、販売員側に近い無指向性マイクフォンで収音された顧客の発声音圧レベルを基準として、当該基準からの顧客の音声信号の削減度合いにより効果を比較した。 Here, in order to extract only the sales person's voice signal and not leave the customer's voice signal as a record, the customer's voice signal is regarded as noise and is evaluated by a noise reduction rate (NRR). Went. At this time, the effect was compared based on the degree of reduction of the voice signal of the customer from the reference, based on the voice pressure level of the customer collected by the omnidirectional microphone near the salesperson.
ただし、収録デバイスの相違に起因する録音レベルの差を吸収するため、販売員の音声信号のパワーが各ケースで同程度になるようにコンピュータ上で正規化を行った。本評価実験で用いるNRRの定義は以下の通りである。 However, in order to absorb the difference in recording level due to the difference in recording devices, normalization was performed on the computer so that the power of the salesperson's audio signal was the same in each case. The definition of NRR used in this evaluation experiment is as follows.
Noise Reduction Rate(NRR:%)=無指向性マイクロホン(基準マイクロホン)による顧客発声音圧レベル[dB]−指向性マイクロホン(又はAFE後)の顧客発声音圧レベル[dB] Noise Reduction Rate (NRR:%) = Customer utterance sound pressure level [dB] by omnidirectional microphone (reference microphone) −Customer utterance sound pressure level [dB] of directional microphone (or after AFE)
通常、NRRは入出力のSNRに基づいて算出されるが、本評価実験においては音声信号のパワーは正規化しているので、上記の定義のように雑音のみの差として定式化している。表2に実験結果を示す。 Normally, the NRR is calculated based on the input / output SNR, but in this evaluation experiment, the power of the audio signal is normalized, so it is formulated as a noise-only difference as defined above. Table 2 shows the experimental results.
実験結果において、無指向性マイクロホンでは、音声到来方向に関係なく全ての音声を収音するため、顧客の音声についても高い音圧レベルを示すことが分かる。また、単一指向性マイクロホンでは、正面方向に対して指向性を有しているけれども、指向特性が鈍いので、顧客の音声をあまり遮断できていないことが分かる。これは、販売員の音声のみをサーバに録音するという目的においては、まったく役に立たないことを意味する。 From the experimental results, it can be seen that the omnidirectional microphone picks up all of the voice regardless of the voice arrival direction, and therefore shows a high sound pressure level for the voice of the customer. In addition, it can be seen that the unidirectional microphone has directivity with respect to the front direction, but the directivity is dull so that the customer's voice cannot be cut off so much. This means that it is completely useless for the purpose of recording only the salesperson's voice on the server.
一方、本実施の形態による音声収集システム(無指向性マイクロホンの使用)では、顧客の音声が顕著に削減されており、顧客音声が効果的に抑圧されていることが分かる。なお、本実施の形態による音声収集システムでは19.6dBの音圧レベルを示しているが、これはAFEが音声認識のために数5に示すフロアリング処理を行うことによって微量なノイズを加えているためであって、この音声が音韻(何をしゃべっているか)を識別できる情報を持っていないことに注意されたい。なお、本実施の形態による音声収集システムでは販売員の音声がもれなく検出されている。
On the other hand, in the voice collection system according to the present embodiment (use of an omnidirectional microphone), it can be seen that the customer voice is remarkably reduced and the customer voice is effectively suppressed. Note that the sound collection system according to the present embodiment shows a sound pressure level of 19.6 dB. This is because the AFE performs a flooring process shown in
上述の実施の形態では、マイクロホンから音声を収集して、マイクロホンアレイ目的音声抽出装置によって販売員の音声のみを顧客対話記録サーバに保存しているが、必要に応じて顧客の音声をサーバに保存することも可能である。また、必要に応じて、図4に示す話者方向インデックスに応じて3つ以上のマイクロホンを配置して、所望の話者のみの音声を抽出するようにしてもよい。 In the above-described embodiment, the voice is collected from the microphone, and only the salesperson's voice is stored in the customer interaction recording server by the microphone array target voice extraction device, but the customer's voice is stored in the server as necessary. It is also possible to do. In addition, if necessary, three or more microphones may be arranged according to the speaker direction index shown in FIG. 4 to extract the voice of only a desired speaker.
また、上述の実施の形態では、相互相関係数を用いたが、相関係数を求める他の方法を用いるようにしてもよい。そして、上述の音声収集システムの動作を実現するプログラムをコンピュータ上で動作させても同様に所望の話者のみの音声を抽出することができる。 In the above-described embodiment, the cross-correlation coefficient is used, but other methods for obtaining the correlation coefficient may be used. Then, even if a program that realizes the operation of the above-described voice collection system is operated on a computer, the voice of only a desired speaker can be similarly extracted.
[音声処理の諸段階の順序による音声強調の性能の例]
本発明に係る音声収集においては、前述の図8を用いて音声処理の諸段階及びそれらの順序を示したように、SS処理→CSPによる利得調整→Flooring処理の順で、目的音声を収集するための音声強調処理を行う。この順序は、本発明に係る音声収集方法のための音声強調において重要なポイントであり、以下に処理順番の違いによる音声強調の性能の差を例示する。
[Example of speech enhancement performance based on the sequence of speech processing steps]
In the voice collection according to the present invention, the target voices are collected in the order of SS processing → gain adjustment by CSP → flooring processing, as shown in the steps of voice processing and their order using FIG. 8 described above. Voice enhancement processing is performed. This order is an important point in speech enhancement for the speech collection method according to the present invention, and the difference in speech enhancement performance due to the difference in processing order will be exemplified below.
音声強調の性能の差を試験するための音声は、マイクロホンアレイ11を介して収集し、サンプリング周波数22kHz、フレームサイズ23ms、フレームシフト15ms、FFTサイズ512点の条件で処理した後、音声強調に用い、目的音声強調信号とした。得られた目的音声強調信号に対して、さらに適宜音声認識処理を実施した。
Speech for testing the difference in performance of speech enhancement is collected through the
まず、本発明に係る音声強調を用いることにより、音声認識率が向上する例を示す。表3に、4名の話者による50種類の音声コマンドの発話収録における、音声強調を従来技術に係るSS処理のみとして音声認識処理を実施した場合のコマンド認識率と、本発明に係る所定の順序に基づく音声強調、すなわち、SS処理→CSPによる利得調整→Flooring処理を実施した場合のコマンド認識率の比較を示す。コマンド認識率は音声認識率として扱い得る。従って、表3に示すように、本発明に係る音声強調により、音声認識率を高めることが可能である。
次いで、本発明に係る音声強調の諸段階の順序が、音声認識率の結果に影響する例を示す。表4に、音声強調の処理手順を入れ替えた場合のコマンド認識率を比較した結果を、表3に追記した表として示す。話者及び音声収集条件等は、前述の表3に示した例と同様であり、「処理手順入れ替え1」としてSS処理→Flooring処理→CSPによる利得調整の手順で音声強調を実施し、及び「処理手順入れ替え2」としてCSPによる利得調整→SS処理→Flooring処理とした音声強調を実施した。表4にコマンド認識率として示す音声認識率を比較すると、本発明に係る音声強調の手順として、SS処理→CSPによる利得調整→Flooring処理の順で処理したときに顕著に高い性能が得られた。従って、この順番に処理するという手順が重要であることがわかる。
図9に、本発明に係る音声強調処置の諸段階における雑音区間の音声信号の例を示す。本発明に係る音声強調の処理手順が飛びぬけて高い性能を示す理由として、図9の(a)(b)(c)(d)で示すような模式図による説明が考えられる。雑音区間(目的話者の非発話区間)の例(200)は、いずれも振幅の周波数特性として表す。図9(a)は、スペクトルサブトラクション(SS)処理を行う前のパワースペクトルXω(T)を示す模式図である。図9(b)はSS処理を実施した減算後パワースペクトルYω(T)を示す模式図であり、SS処理によって雑音が減少している。図9(c)はCSP係数による利得調整後のパワースペクトルDω(T)を示す模式図であり、CSP係数による利得調整によって、さらに雑音が減少している。図9(d)は、Flooring処理を行った後の認識用パワースペクトルZω(T)を示す模式図であり、でこぼこしていた雑音のスペクトルが、なだらかなものになる。 FIG. 9 shows an example of a speech signal in a noise section at various stages of speech enhancement processing according to the present invention. As a reason why the speech enhancement processing procedure according to the present invention skips and exhibits high performance, explanations using schematic diagrams as shown in FIGS. 9A, 9B, 9C, and 9D can be considered. All examples (200) of the noise section (non-speech section of the target speaker) are expressed as amplitude frequency characteristics. FIG. 9A is a schematic diagram showing the power spectrum Xω (T) before performing the spectrum subtraction (SS) process. FIG. 9B is a schematic diagram showing the subtracted power spectrum Yω (T) subjected to the SS process, and noise is reduced by the SS process. FIG. 9C is a schematic diagram showing the power spectrum Dω (T) after gain adjustment by the CSP coefficient, and noise is further reduced by the gain adjustment by the CSP coefficient. FIG. 9D is a schematic diagram showing a recognition power spectrum Zω (T) after performing the flooring process, and the spectrum of the lumpy noise becomes gentle.
CSPとFlooringの効果は、雑音区間(目的話者の非発話区間)に現れる。雑音区間のスペクトルが、SS処理により平らになり、ところどころ飛び出ている山が、CSP係数をかけることによってさらにつぶされ、さらに、Flooringをかけることによって谷が埋められ、平滑化された(比喩としては、雪をかぶったような)なだらかなスペクトル包絡になる。結果として、雑音を目的話者の音声として間違うことがなくなる。従来技術に係る音声認識の方式では、目的話者が発話していないのに、周囲の雑音を目的話者の音声と間違えて誤った認識を起こしてしまうことが問題となっているが、SS処理→(CSP係数による)利得調整→Flooring処理という処理手順で処理すると、その誤りが軽減されると考えられる。 The effects of CSP and Flooring appear in the noise section (non-speaking section of the target speaker). The spectrum of the noise section is flattened by SS processing, and the peaks that pop out in some places are further crushed by applying the CSP coefficient, and further, valleys are filled and smoothed by applying Flooring (as a metaphor A gentle spectral envelope (like snow). As a result, noise is not mistaken as the target speaker's voice. In the speech recognition method according to the prior art, although the target speaker is not speaking, there is a problem that the surrounding noise is mistaken for the target speaker's voice and erroneous recognition is caused. It is considered that the error can be reduced by processing according to the processing procedure of processing → gain adjustment (by CSP coefficient) → flooring processing.
[可搬型販売員音声収集装置の動作状況の例]
図10に、本発明の一実施形態に係る、可搬型販売員音声収集装置60の動作状況を例示する。可搬型販売員音声収集装置60は、マイクロホン60a及び60bを備え、これらは図1〜3及び図6を用いて前述の、本発明に係る音声収集方法の実施装置におけるマイクロホンアレイを構成する。さらに、可搬型販売員音声収集装置60は、本発明に係る音声収集方法の諸段階を実施可能なデジタル信号処理手段を備え、記憶手段、音声再生手段等を適宜含む。
[Example of operation status of portable salesperson voice collection device]
FIG. 10 illustrates an operation state of the portable salesperson
典型的には、可搬型販売員音声収集装置60は販売員22の胸元等に固定され、販売員22が顧客21と対面するときに、販売員22の口元から可搬型販売員音声収集装置60に向かう音声到来方向1(70)及び顧客21の口元から可搬型販売員音声収集装置60にむかう音声到来方向2(72)のそれぞれが、マイクロホン60a及びマイクロホン60bを結ぶ方向ベクトルに対して異なる角度を有するように配置される。例えば、当該方向ベクトルは、販売員22の頭頂から足元に向かい、体軸と略平行な向きを向いており(顧客21から見て2つのマイクロホン60a及び60bは上下に配置しているように見える)、音声到来方向1(70)は当該方向ベクトルと略平行な方向であり、音声到来方向2(71)は当該方向ベクトルに対して略垂直な方向であり得る。これに限らず、可搬型販売員音声収集装置60は、マイクロホン60a及びマイクロホン60bを結ぶ方向ベクトルが音声到来方向1(70)及び音声到来方向2(71)のそれぞれに対して異なる角度をなすように配置されればよく、可搬型販売員音声収集装置60の大きさ、形状等は適宜設計し得る。
Typically, the portable salesperson
このように可搬型販売員音声収集装置60を配置し、マイクロホン60a及びマイクロホン60bを本発明に係る音声収集方法におけるマイクロホンアレイとして用い、前述の目的音声抽出のための方法を実施して、特定の時間差を有して当該マイクロホンアレイに到達する音声を抽出することにより、販売員22の声を選択的に収集することが可能になる。本発明においては、市販入手可能なボイスレコーダ等と類似した形態を有する可搬型販売員音声収集装置60を用いて、販売員の声を選択的に収集する実施手段を実現し得る。
In this way, the portable salesperson
[販売員音声収集装置のハードウェア構成]
図11は、本発明の一実施形態に係る、販売員音声収集装置のハードウェア構成を示す図である。図11においては、販売員音声収集装置を情報処理装置1000とし、そのハードウェア構成を例示する。以下は、コンピュータを典型とする情報処理装置として全般的な構成を説明するが、その環境に応じて必要最小限な構成を選択できることはいうまでもない。
[Hardware configuration of salesperson voice collection device]
FIG. 11 is a diagram showing a hardware configuration of a salesperson voice collection device according to an embodiment of the present invention. In FIG. 11, the salesperson voice collection device is the
情報処理装置1000は、CPU(Central Processing Unit)1010、バスライン1005、通信I/F1040、メインメモリ1050、BIOS(Basic Input Output System)1060、パラレルポート1080、USBポート1090、グラフィック・コントローラ1020、VRAM1024、音声プロセッサ1030、I/Oコントローラ1070、並びにキーボード及びマウス・アダプタ1100等の入力手段を備える。I/Oコントローラ1070には、フレキシブル・ディスク(FD)ドライブ1072、ハードディスク1074、光ディスク・ドライブ1076、半導体メモリ1078等の記憶手段を接続することができる。
The
音声プロセッサ1030には、マイクロホン1036及び1037、増幅回路1032、及びスピーカ1034が接続される。また、グラフィック・コントローラ1020には、表示装置1022が接続されている。
BIOS1060は、情報処理装置1000の起動時にCPU1010が実行するブートプログラムや、情報処理装置1000のハードウェアに依存するプログラム等を格納する。FD(フレキシブル・ディスク)ドライブ1072は、フレキシブル・ディスク1071からプログラム又はデータを読み取り、I/Oコントローラ1070を介してメインメモリ1050又はハードディスク1074に提供する。
図5には、情報処理装置1000の内部にハードディスク1074が含まれる例を示したが、バスライン1005又はI/Oコントローラ1070に外部機器接続用インタフェース(図示せず)を接続し、情報処理装置1000の外部にハードディスクを接続又は増設してもよい。
The
FIG. 5 shows an example in which the
光ディスク・ドライブ1076としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この際は各ドライブに対応した光ディスク1077を使用する必要がある。光ディスク・ドライブ1076は光ディスク1077からプログラム又はデータを読み取り、I/Oコントローラ1070を介してメインメモリ1050又はハードディスク1074に提供することもできる。
As the
情報処理装置1000に提供されるコンピュータプログラムは、フレキシブル・ディスク1071、光ディスク1077、又はメモリーカード等の記録媒体に格納されて利用者によって提供される。このコンピュータプログラムは、I/Oコントローラ1070を介して、記録媒体から読み出され、又は通信I/F1040を介してダウンロードされることによって、情報処理装置1000にインストールされ実行される。コンピュータプログラムが情報処理装置に働きかけて行わせる動作は、既に説明した装置における動作と同一であるので省略する。
The computer program provided to the
前述のコンピュータプログラムは、外部の記憶媒体に格納されてもよい。記憶媒体としてはフレキシブル・ディスク1071、光ディスク1077、又はメモリーカードの他に、MD等の光磁気記録媒体、テープ媒体を用いることができる。また、専用通信回線やインターネットに接続されたサーバシステムに設けたハードディスク又は光ディスク・ライブラリ等の記憶装置を記録媒体として使用し、通信回線を介してコンピュータプログラムを情報処理装置1000に提供してもよい。
The aforementioned computer program may be stored in an external storage medium. As the storage medium, in addition to the
以上の例は、情報処理装置1000について主に説明したが、コンピュータに、情報処理装置で説明した機能を有するプログラムをインストールして、そのコンピュータを情報処理装置として動作させることにより上記で説明した情報処理装置と同様な機能を実現することができる。
In the above example, the
本装置は、ハードウェア、ソフトウェア、又はハードウェア及びソフトウェアの組み合わせとして実現可能である。ハードウェアとソフトウェアの組み合わせによる実施では、所定のプログラムを有するコンピュータシステムでの実施が典型的な例として挙げられる。かかる場合、該所定のプログラムが該コンピュータシステムにロードされ実行されることにより、該プログラムは、コンピュータシステムに本発明にかかる処理を実行させる。このプログラムは、任意の言語、コード、又は表記によって表現可能な命令群から構成される。そのような命令群は、システムが特定の機能を直接実行すること、又は(1)他の言語、コード、もしくは表記への変換、(2)他の媒体への複製、のいずれか一方もしくは双方が行われた後に、実行することを可能にするものである。もちろん、本発明は、そのようなプログラム自体のみならず、プログラムを記録した媒体を含むプログラム製品もその範囲に含むものである。本発明の機能を実行するためのプログラムは、フレキシブル・ディスク、MO、CD−ROM、DVD、ハードディスク装置、ROM、MRAM、RAM等の任意のコンピュータ可読媒体に格納することができる。かかるプログラムは、コンピュータ可読媒体への格納のために、通信回線で接続する他のコンピュータシステムからダウンロードしたり、他の媒体から複製したりすることができる。また、かかるプログラムは、圧縮し、又は複数に分割して、単一又は複数の記録媒体に格納することもできる。 This apparatus can be realized as hardware, software, or a combination of hardware and software. A typical example of implementation using a combination of hardware and software is implementation on a computer system having a predetermined program. In such a case, the predetermined program is loaded into the computer system and executed, whereby the program causes the computer system to execute the processing according to the present invention. This program is composed of a group of instructions that can be expressed in any language, code, or notation. Such instructions can be either or both of the following: (1) conversion to another language, code, or notation; (2) replication to other media; Can be executed after the Of course, the present invention includes not only such a program itself but also a program product including a medium on which the program is recorded. The program for executing the functions of the present invention can be stored in any computer-readable medium such as a flexible disk, MO, CD-ROM, DVD, hard disk device, ROM, MRAM, and RAM. Such a program can be downloaded from another computer system connected via a communication line or copied from another medium for storage in a computer-readable medium. Further, such a program can be compressed or divided into a plurality of parts and stored in a single or a plurality of recording media.
10 音声収集システム
11 マイクロホンアレイ
12 目的音声抽出装置
13 顧客対話記録サーバ
31 発話区間インデックス検出処理部
32、33 音声認識部
34 統合選択部
35 録音範囲抽出部
60 可搬型販売員音声収集装置
105、106 離散フーリエ変換処理部
110 CSP係数算出部
120 群遅延アレイ処理部、
130 雑音推定部
140 SS処理部
150 利得調整処理部
160 フロアリング処理部
DESCRIPTION OF
130
Claims (16)
前記第1のマイクロホン及び前記第2のマイクロホンで受けた音声の信号をそれぞれ離散フーリエ変換して、音声の到来方向に関連する複数のCSP係数を求め、前記複数のCSP係数より前記複数の音声の信号を検出するステップと、
前記求めた前記複数のCSP係数から、前記第1のマイクロホン及び前記第2のマイクロホンを結ぶ線分と前記到来方向のなす角度に従って規定された音声方向インデックスを検出するステップと、
前記検出した前記音声方向インデックスにより、前記検出した前記複数の音声の信号から前記目的音声の信号を抽出するステップと、
を含む前記音声収集方法。 A voice collection method using a microphone array in which at least a first microphone and a second microphone are arranged at a predetermined distance in order to extract and collect a target voice of interest from among a plurality of voices having different directions of arrival. There,
The speech signals received by the first microphone and the second microphone are discrete Fourier transformed to obtain a plurality of CSP coefficients related to the direction of arrival of the speech, and the plurality of speech signals are obtained from the plurality of CSP coefficients. Detecting a signal;
Detecting a speech direction index defined according to an angle formed by a line segment connecting the first microphone and the second microphone and the arrival direction from the obtained CSP coefficients;
Extracting the target speech signal from the detected plurality of speech signals according to the detected speech direction index;
The voice collecting method including:
前記SS処理をするステップの出力及び前記CSP係数より利得調整を実施するステップと、
前記利得調整を実施するステップの出力についてフロアリング係数(β)w用いてフロアリング処理を実施するステップと、
を含む請求項1に記載の音声収集方法。 And performing SS (spectral subtraction) processing using the estimated noise power spectrum (Uω) and the subtraction constant (α) based on the respective discrete Fourier transform results;
Performing gain adjustment from the output of the SS processing step and the CSP coefficient;
Performing a flooring process using a flooring coefficient (β) w for the output of the gain adjustment step;
The voice collecting method according to claim 1, comprising:
前記第1の音声の信号及び前記第2の音声の信号と前記第1の音声方向インデックス及び前記第2の音声方向インデックスより、前記第1の音声の信号及び前記第2の音声の信号についてそれぞれ音声認識処理を行って第1の音声認識結果及び第2の音声認識結果を得るとともに、当該第1の音声及び第2の音声が発話された時間を示す第1の時間情報及び第2の時間情報を得る音声認識ステップと、
前記第1の音声認識結果及び前記第2の音声認識結果を前記第1の時間情報及び前記第2の時間情報とともに統合する統合ステップと、
前記統合の結果により抽出すべき箇所が選択されると当該箇所に応じた発話区間の音声の信号を切り出す切り出しステップと、
を含む請求項9に記載の音声収集方法。 The step of extracting the target speech signal further comprises the step of extracting the first speech from the first speech signal, the second speech signal, the first speech direction index, and the second speech direction index. And the second voice signal are subjected to voice recognition processing to obtain the first voice recognition result and the second voice recognition result, and the time when the first voice and the second voice are spoken. A voice recognition step for obtaining first time information and second time information indicating:
An integration step of integrating the first speech recognition result and the second speech recognition result together with the first time information and the second time information;
When a location to be extracted is selected as a result of the integration, a cutout step of cutting out a speech signal of an utterance section according to the location;
The voice collecting method according to claim 9, comprising:
前記第1のマイクロホン及び前記第2のマイクロホンで受けた音声の信号をそれぞれ離散フーリエ変換して、音声の到来方向に関連する複数のCSP係数を求め、前記複数のCSP係数より前記複数の音声の信号を検出する音声検出手段と、
前記求めた前記複数のCSP係数から、前記第1のマイクロホン及び前記第2のマイクロホンを結ぶ線分と前記到来方向のなす角度に従って規定された音声方向インデックスを検出する音声方向インデックス検出手段と、
前記検出した前記音声方向インデックスにより前記検出した前記複数の音声の信号から前記目的音声の信号を抽出する目的音声抽出手段と、
を含む音声収集システム。 In a sound collection system using a microphone array in which at least a first microphone and a second microphone are arranged at a predetermined distance in order to extract and collect a target target sound from a plurality of sounds having different directions of arrival. There,
The speech signals received by the first microphone and the second microphone are discrete Fourier transformed to obtain a plurality of CSP coefficients related to the direction of arrival of the speech, and the plurality of speech signals are obtained from the plurality of CSP coefficients. Voice detection means for detecting a signal;
A voice direction index detecting means for detecting a voice direction index defined according to an angle formed by a line segment connecting the first microphone and the second microphone and the arrival direction from the plurality of CSP coefficients obtained;
Target speech extraction means for extracting the target speech signal from the plurality of speech signals detected by the detected speech direction index;
Including voice collection system.
前記第1の音声の発生源と前記第2の音声の発生源のそれぞれは、前記第1のマイクロホン及び前記第2のマイクロホンを結ぶ線分を中心軸として予め定められた角度の範囲内に位置し、
前記第1のマイクロホン及び前記第2のマイクロホンで受けた音声の信号をそれぞれ離散フーリエ変換した結果に基づいて目的の音声を強調するためにアレイ処理をする手段と、
前記それぞれ離散フーリエ変換した結果に基づいて、推定される雑音のパワースペクトル(Uω)と減算定数(α)とを用いるSS(スペクトルサブトラクション)処理をする手段と、
前記それぞれ離散フーリエ変換した結果よりCSP係数を求め、前記SS処理をする手段の出力及び前記CSP係数より利得調整を実施する手段と、
前記利得調整を実施する手段の出力についてフロアリング係数(β)を用いてフロアリング処理を実施する手段と、
前記フロアリング処理を実施した音声信号より前記第1の音声の信号及び第2の音声の信号を検出する音声検出手段と、
前記第1の音声及び前記第2の音声のそれぞれについて独立に、前記求めた前記CSP係数の大小関係を比較して、1つの音声が前記第1のマイクロホン及び前記第2のマイクロホンに到達する時間の差に由来する音声方向インデックスを決定する音声方向インデックス検出手段と、
前記音声方向インデックスより前記第1の音声の信号を抽出する目的音声抽出手段と、
前記CSP係数より前記第1の音声の信号の発話区間を検出する発話区間検出手段と、
前記検出した発話区間より前記第1の音声の信号を分離する目的音声分離手段と、
を含む音声収集システム。 A microphone array in which at least a first microphone and a second microphone are arranged at a predetermined distance in order to extract and collect the first voice out of the first voice and the second voice having different directions of arrival. A voice collection system using
Each of the first sound generation source and the second sound generation source is located within a predetermined angle range with a line segment connecting the first microphone and the second microphone as a central axis. And
Means for performing array processing to emphasize the target sound based on the result of discrete Fourier transform of the sound signals received by the first microphone and the second microphone;
Means for performing SS (spectral subtraction) processing using a power spectrum (Uω) of an estimated noise and a subtraction constant (α) based on the respective discrete Fourier transform results;
Means for obtaining a CSP coefficient from the result of each discrete Fourier transform, and performing gain adjustment from the output of the means for performing the SS processing and the CSP coefficient;
Means for performing a flooring process using a flooring coefficient (β) for the output of the means for performing the gain adjustment;
Voice detection means for detecting the first voice signal and the second voice signal from the voice signal subjected to the flooring process;
The time required for one sound to reach the first microphone and the second microphone by comparing the magnitude relationship of the obtained CSP coefficients independently for each of the first sound and the second sound. A voice direction index detecting means for determining a voice direction index derived from the difference between
Target speech extraction means for extracting the first speech signal from the speech direction index;
Utterance period detecting means for detecting an utterance period of the signal of the first voice from the CSP coefficient;
Target speech separation means for separating the first speech signal from the detected speech section;
Including voice collection system.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008189504A JP5339501B2 (en) | 2008-07-23 | 2008-07-23 | Voice collection method, system and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008189504A JP5339501B2 (en) | 2008-07-23 | 2008-07-23 | Voice collection method, system and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010026361A true JP2010026361A (en) | 2010-02-04 |
JP5339501B2 JP5339501B2 (en) | 2013-11-13 |
Family
ID=41732236
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008189504A Expired - Fee Related JP5339501B2 (en) | 2008-07-23 | 2008-07-23 | Voice collection method, system and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5339501B2 (en) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013072978A (en) * | 2011-09-27 | 2013-04-22 | Fuji Xerox Co Ltd | Voice analyzer and voice analysis system |
JP2013121078A (en) * | 2011-12-07 | 2013-06-17 | Fuji Xerox Co Ltd | Facing-angle output device, and facing-angle output system and program |
JP2014164164A (en) * | 2013-02-26 | 2014-09-08 | Fuji Xerox Co Ltd | Voice analysis device, signal analyzer, voice analysis system and program |
JP2014523003A (en) * | 2011-07-05 | 2014-09-08 | マイクロソフト コーポレーション | Audio signal processing |
JP2014191069A (en) * | 2013-03-26 | 2014-10-06 | Fuji Xerox Co Ltd | Voice analysis device, voice analysis system, and program |
JP2014191201A (en) * | 2013-03-27 | 2014-10-06 | Fuji Xerox Co Ltd | Voice analysis system, voice analysis device, and program |
JP2015127768A (en) * | 2013-12-27 | 2015-07-09 | 富士ゼロックス株式会社 | Signal analysis apparatus, signal analysis system, and program |
KR101547261B1 (en) * | 2015-03-05 | 2015-08-27 | (주)지앤넷 | Speaker identification method |
KR20160013592A (en) * | 2014-07-28 | 2016-02-05 | (주)복스유니버스 | Speaker separation system and method using voice feature vectors |
WO2017046888A1 (en) * | 2015-09-16 | 2017-03-23 | 株式会社東芝 | Sound collecting apparatus, sound collecting method, and program |
JP2018506228A (en) * | 2015-01-12 | 2018-03-01 | ユウトウ・テクノロジー(ハンジョウ)・カンパニー・リミテッド | Multichannel digital microphone |
CN108735226A (en) * | 2018-07-09 | 2018-11-02 | 科沃斯商用机器人有限公司 | Voice acquisition method, device and equipment |
GB2566755A (en) * | 2017-09-25 | 2019-03-27 | Cirrus Logic Int Semiconductor Ltd | Talker change detection |
KR101970347B1 (en) * | 2019-02-19 | 2019-04-17 | 주식회사 소리자바 | Speech recognition device for removing noise of speaker speech |
KR101970346B1 (en) * | 2019-02-19 | 2019-04-17 | 주식회사 소리자바 | Speech recognition device for adjusting beam forming sound-receiving angle using speaker position |
KR101970753B1 (en) * | 2019-02-19 | 2019-04-22 | 주식회사 소리자바 | Meeting recording system using speech recognition |
CN110310642A (en) * | 2018-03-20 | 2019-10-08 | 阿里巴巴集团控股有限公司 | Method of speech processing, system, client, equipment and storage medium |
CN113658579A (en) * | 2021-09-18 | 2021-11-16 | 重庆紫光华山智安科技有限公司 | Audio signal processing method and device, electronic equipment and readable storage medium |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6755843B2 (en) | 2017-09-14 | 2020-09-16 | 株式会社東芝 | Sound processing device, voice recognition device, sound processing method, voice recognition method, sound processing program and voice recognition program |
JP2023533047A (en) * | 2020-07-10 | 2023-08-01 | アモセンス・カンパニー・リミテッド | audio processor |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002062348A (en) * | 2000-08-24 | 2002-02-28 | Sony Corp | Apparatus and method for processing signal |
JP2002135642A (en) * | 2000-10-24 | 2002-05-10 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | Speech translation system |
JP2004289762A (en) * | 2003-01-29 | 2004-10-14 | Toshiba Corp | Method of processing sound signal, and system and program therefor |
WO2007018293A1 (en) * | 2005-08-11 | 2007-02-15 | Asahi Kasei Kabushiki Kaisha | Sound source separating device, speech recognizing device, portable telephone, and sound source separating method, and program |
JP2007081455A (en) * | 2005-09-09 | 2007-03-29 | Nippon Telegr & Teleph Corp <Ntt> | Sound source position/sound reception position estimating method, apparatus thereof, program thereof and recording medium thereof |
JP2007233239A (en) * | 2006-03-03 | 2007-09-13 | National Institute Of Advanced Industrial & Technology | Method, system, and program for utterance event separation |
JP2007257088A (en) * | 2006-03-20 | 2007-10-04 | Univ Of Electro-Communications | Robot device and its communication method |
JP2008275881A (en) * | 2007-04-27 | 2008-11-13 | Internatl Business Mach Corp <Ibm> | Object sound extraction method by removing noise, preprocessing section, voice recognition system and program |
-
2008
- 2008-07-23 JP JP2008189504A patent/JP5339501B2/en not_active Expired - Fee Related
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002062348A (en) * | 2000-08-24 | 2002-02-28 | Sony Corp | Apparatus and method for processing signal |
JP2002135642A (en) * | 2000-10-24 | 2002-05-10 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | Speech translation system |
JP2004289762A (en) * | 2003-01-29 | 2004-10-14 | Toshiba Corp | Method of processing sound signal, and system and program therefor |
WO2007018293A1 (en) * | 2005-08-11 | 2007-02-15 | Asahi Kasei Kabushiki Kaisha | Sound source separating device, speech recognizing device, portable telephone, and sound source separating method, and program |
JP2007081455A (en) * | 2005-09-09 | 2007-03-29 | Nippon Telegr & Teleph Corp <Ntt> | Sound source position/sound reception position estimating method, apparatus thereof, program thereof and recording medium thereof |
JP2007233239A (en) * | 2006-03-03 | 2007-09-13 | National Institute Of Advanced Industrial & Technology | Method, system, and program for utterance event separation |
JP2007257088A (en) * | 2006-03-20 | 2007-10-04 | Univ Of Electro-Communications | Robot device and its communication method |
JP2008275881A (en) * | 2007-04-27 | 2008-11-13 | Internatl Business Mach Corp <Ibm> | Object sound extraction method by removing noise, preprocessing section, voice recognition system and program |
JP5156260B2 (en) * | 2007-04-27 | 2013-03-06 | ニュアンス コミュニケーションズ,インコーポレイテッド | Method for removing target noise and extracting target sound, preprocessing unit, speech recognition system and program |
Non-Patent Citations (2)
Title |
---|
CSNG200001041001; 水町 光徳、赤木 正人: 'マイクロホン対を用いたスペクトルサブトラクションによる雑音除去法' 電子情報通信学会論文誌A Vol.J82-A,No.4, 19990425, pp.503-512, 社団法人電子情報通信学会 * |
JPN6012062187; 水町 光徳、赤木 正人: 'マイクロホン対を用いたスペクトルサブトラクションによる雑音除去法' 電子情報通信学会論文誌A Vol.J82-A,No.4, 19990425, pp.503-512, 社団法人電子情報通信学会 * |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014523003A (en) * | 2011-07-05 | 2014-09-08 | マイクロソフト コーポレーション | Audio signal processing |
JP2013072978A (en) * | 2011-09-27 | 2013-04-22 | Fuji Xerox Co Ltd | Voice analyzer and voice analysis system |
JP2013121078A (en) * | 2011-12-07 | 2013-06-17 | Fuji Xerox Co Ltd | Facing-angle output device, and facing-angle output system and program |
JP2014164164A (en) * | 2013-02-26 | 2014-09-08 | Fuji Xerox Co Ltd | Voice analysis device, signal analyzer, voice analysis system and program |
JP2014191069A (en) * | 2013-03-26 | 2014-10-06 | Fuji Xerox Co Ltd | Voice analysis device, voice analysis system, and program |
JP2014191201A (en) * | 2013-03-27 | 2014-10-06 | Fuji Xerox Co Ltd | Voice analysis system, voice analysis device, and program |
JP2015127768A (en) * | 2013-12-27 | 2015-07-09 | 富士ゼロックス株式会社 | Signal analysis apparatus, signal analysis system, and program |
KR20160013592A (en) * | 2014-07-28 | 2016-02-05 | (주)복스유니버스 | Speaker separation system and method using voice feature vectors |
KR101616112B1 (en) * | 2014-07-28 | 2016-04-27 | (주)복스유니버스 | Speaker separation system and method using voice feature vectors |
JP2018506228A (en) * | 2015-01-12 | 2018-03-01 | ユウトウ・テクノロジー(ハンジョウ)・カンパニー・リミテッド | Multichannel digital microphone |
KR101547261B1 (en) * | 2015-03-05 | 2015-08-27 | (주)지앤넷 | Speaker identification method |
WO2017046888A1 (en) * | 2015-09-16 | 2017-03-23 | 株式会社東芝 | Sound collecting apparatus, sound collecting method, and program |
US10580411B2 (en) | 2017-09-25 | 2020-03-03 | Cirrus Logic, Inc. | Talker change detection |
GB2566755A (en) * | 2017-09-25 | 2019-03-27 | Cirrus Logic Int Semiconductor Ltd | Talker change detection |
GB2566755B (en) * | 2017-09-25 | 2021-04-14 | Cirrus Logic Int Semiconductor Ltd | Talker change detection |
CN110310642A (en) * | 2018-03-20 | 2019-10-08 | 阿里巴巴集团控股有限公司 | Method of speech processing, system, client, equipment and storage medium |
CN110310642B (en) * | 2018-03-20 | 2023-12-26 | 阿里巴巴集团控股有限公司 | Voice processing method, system, client, equipment and storage medium |
CN108735226A (en) * | 2018-07-09 | 2018-11-02 | 科沃斯商用机器人有限公司 | Voice acquisition method, device and equipment |
CN108735226B (en) * | 2018-07-09 | 2024-04-02 | 科沃斯商用机器人有限公司 | Voice acquisition method, device and equipment |
KR101970347B1 (en) * | 2019-02-19 | 2019-04-17 | 주식회사 소리자바 | Speech recognition device for removing noise of speaker speech |
KR101970346B1 (en) * | 2019-02-19 | 2019-04-17 | 주식회사 소리자바 | Speech recognition device for adjusting beam forming sound-receiving angle using speaker position |
KR101970753B1 (en) * | 2019-02-19 | 2019-04-22 | 주식회사 소리자바 | Meeting recording system using speech recognition |
CN113658579A (en) * | 2021-09-18 | 2021-11-16 | 重庆紫光华山智安科技有限公司 | Audio signal processing method and device, electronic equipment and readable storage medium |
CN113658579B (en) * | 2021-09-18 | 2024-01-30 | 重庆紫光华山智安科技有限公司 | Audio signal processing method, device, electronic equipment and readable storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP5339501B2 (en) | 2013-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5339501B2 (en) | Voice collection method, system and program | |
US8762137B2 (en) | Target voice extraction method, apparatus and program product | |
US9666183B2 (en) | Deep neural net based filter prediction for audio event classification and extraction | |
EP3289586B1 (en) | Impulsive noise suppression | |
US9959886B2 (en) | Spectral comb voice activity detection | |
US8874441B2 (en) | Noise suppression using multiple sensors of a communication device | |
US20170061978A1 (en) | Real-time method for implementing deep neural network based speech separation | |
EP3757993B1 (en) | Pre-processing for automatic speech recognition | |
JP2011033717A (en) | Noise suppression device | |
Shokouhi et al. | Robust overlapped speech detection and its application in word-count estimation for prof-life-log data | |
JP2007288242A (en) | Operator evaluation method, device, operator evaluation program, and recording medium | |
Grondin et al. | WISS, a speaker identification system for mobile robots | |
Keronen et al. | Mask estimation and imputation methods for missing data speech recognition in a multisource reverberant environment | |
CN108389590B (en) | Time-frequency joint voice top cutting detection method | |
JP3649032B2 (en) | Speech recognition method | |
JP4612468B2 (en) | Signal extraction device | |
JP2017097160A (en) | Speech processing device, speech processing method, and program | |
JP2010175465A (en) | Speaker direction estimation device | |
Zwyssig et al. | On the effect of SNR and superdirective beamforming in speaker diarisation in meetings | |
KR102628500B1 (en) | Apparatus for face-to-face recording and method for using the same | |
Maraboina et al. | Multi-speaker voice activity detection using ICA and beampattern analysis | |
JP5672155B2 (en) | Speaker discrimination apparatus, speaker discrimination program, and speaker discrimination method | |
Venkatesan et al. | Analysis of monaural and binaural statistical properties for the estimation of distance of a target speaker | |
May | Influence of binary mask estimation errors on robust speaker identification | |
Ichikawa et al. | Effective speech suppression using a two-channel microphone array for privacy protection in face-to-face sales monitoring |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110606 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121115 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121204 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130206 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130709 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20130710 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130802 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |