JP2020190669A - Speaker identification device, speaker identification method, and speaker identification program - Google Patents
Speaker identification device, speaker identification method, and speaker identification program Download PDFInfo
- Publication number
- JP2020190669A JP2020190669A JP2019096691A JP2019096691A JP2020190669A JP 2020190669 A JP2020190669 A JP 2020190669A JP 2019096691 A JP2019096691 A JP 2019096691A JP 2019096691 A JP2019096691 A JP 2019096691A JP 2020190669 A JP2020190669 A JP 2020190669A
- Authority
- JP
- Japan
- Prior art keywords
- period
- speaker
- voice data
- representative value
- comparison
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、話者特定装置、話者特定方法、及び話者特定プログラムに関するものである。 The present invention relates to a speaker identification device, a speaker identification method, and a speaker identification program.
近年、音声認識技術の発展に伴い、面接や会議等における話者の音声を自動的に文字データ化し、議事録を自動作成するシステムが開発されている。このような文字認識を行う際、マイクロフォンによって取得された音声データが誰によって発話されたのかを特定する必要がある。 In recent years, with the development of voice recognition technology, a system has been developed that automatically converts the voice of a speaker in an interview or a conference into character data and automatically creates minutes. When performing such character recognition, it is necessary to identify who spoke the voice data acquired by the microphone.
話者を特定する方法として、例えば、特許文献1に開示される方法が知られている。特許文献1には、話者が発した音声の特徴量を予め記憶しておき、マイクロフォンで取得された音声データの特徴量と予め記憶しておいた話者の特徴量とを比較することにより、話者を特定する方法が開示されている。
As a method for identifying a speaker, for example, a method disclosed in
しかしながら、特許文献1に開示された発明では、予め話者の特徴量を記憶する必要があり、利便性が低い。また、特徴量が記憶されていない話者については特定することができないため、汎用性に乏しい。
また、話者の声が似ている場合、特徴量の比較では区別しにくく、精度が低い。
However, in the invention disclosed in
In addition, when the voices of the speakers are similar, it is difficult to distinguish them by comparing the features, and the accuracy is low.
本発明は、このような事情に鑑みてなされたものであって、事前の作業を不要とし、より簡便に話者を特定することのできる話者特定装置、話者特定方法、及び話者特定プログラムを提供することを目的とする。 The present invention has been made in view of such circumstances, and is a speaker identification device, a speaker identification method, and a speaker identification that do not require prior work and can more easily identify a speaker. The purpose is to provide a program.
本発明の第一態様は、複数の対象者にそれぞれ対応して設けられた複数のマイクロフォンによって取得された複数の音声データを用いて、話者を特定する話者特定装置であって、前記音声データ毎に、音の大きさに関する特徴を示す代表値を所定の第1期間毎に取得する代表値取得部と、異なる2つの前記音声データから取得された2つの前記代表値同士を前記第1期間毎に比較し、比較結果を前記第1期間毎に得る比較部と、前記第1期間よりも長い第2期間に得られた複数の前記比較結果を用いて、前記第2期間における話者を特定する特定部とを具備する話者特定装置である。 A first aspect of the present invention is a speaker identification device that identifies a speaker by using a plurality of voice data acquired by a plurality of microphones provided corresponding to a plurality of subjects, and the voice is described above. For each data, a representative value acquisition unit that acquires a representative value indicating a characteristic regarding loudness for each predetermined first period, and two representative values acquired from two different voice data are said to be the first. A speaker in the second period using a comparison unit that compares each period and obtains a comparison result for each first period and a plurality of the comparison results obtained in a second period longer than the first period. It is a speaker identification device including a specific unit for specifying the above.
上記話者特定装置によれば、代表値取得部によって各音声データにおける代表値が第1期間毎に取得され、比較部によって、第1期間毎に、異なる2つの音声データから取得された2つの代表値が比較されて、比較結果が得られる。そして、特定部によって、第1期間よりも長い第2期間に得られた複数の比較結果を用いて、第2期間における話者が特定される。このように、サンプリングされた全ての音声データを用いるのではなく、各第1期間における代表値を取得することとしたので、音声データに含まれるノイズを低減することができるとともに、処理するデータ量を低減することができる。
また、本態様によれば、第1期間毎に異なる音声データから取得された代表値同士を比較し、第1期間よりも長い第2期間内における複数の比較結果を用いて話者を特定する。音声データにはノイズが含まれているため、例えば、第1期間毎に話者を特定してしまうと、ノイズの影響によって話者が頻繁に切り替わってしまうおそれがある。これに対し、本態様によれば、第1期間よりも長い第2期間内に得られた複数の比較結果を用いて第2期間における話者を特定するので、話者が頻繁に切り替えられることを抑制することができ、話者の特定精度を向上させることが可能となる。
According to the speaker identification device, the representative value acquisition unit acquires the representative value of each voice data in each first period, and the comparison unit acquires two different voice data in each first period. The representative values are compared and the comparison result is obtained. Then, the specific unit identifies the speaker in the second period by using a plurality of comparison results obtained in the second period, which is longer than the first period. In this way, instead of using all the sampled voice data, it is decided to acquire the representative value in each first period, so that the noise contained in the voice data can be reduced and the amount of data to be processed. Can be reduced.
Further, according to this aspect, the representative values acquired from different voice data are compared for each first period, and the speaker is specified by using a plurality of comparison results in the second period longer than the first period. .. Since the voice data contains noise, for example, if the speaker is specified for each first period, the speaker may be frequently switched due to the influence of the noise. On the other hand, according to this aspect, since the speaker in the second period is identified by using a plurality of comparison results obtained in the second period longer than the first period, the speakers are frequently switched. Can be suppressed, and the accuracy of identifying the speaker can be improved.
本発明の第二態様は、複数の対象者にそれぞれ対応して設けられた複数のマイクロフォンによって取得された複数の音声データを用いて、話者を特定する話者特定方法であって、前記音声データ毎に、音の大きさに関する特徴を示す代表値を所定の第1期間毎に取得する代表値取得工程と、異なる2つの前記音声データから取得された2つの前記代表値同士を前記第1期間毎に比較し、比較結果を前記第1期間毎に得る比較工程と、前記第1期間よりも長い第2期間に得られた複数の前記比較結果を用いて、前記第2期間における話者を特定する特定工程とをコンピュータが実行する話者特定方法である。 A second aspect of the present invention is a speaker identification method for identifying a speaker by using a plurality of voice data acquired by a plurality of microphones provided corresponding to a plurality of subjects, and the voice is described above. For each data, a representative value acquisition step of acquiring a representative value indicating a characteristic regarding loudness for each predetermined first period, and the first of the two representative values acquired from two different voice data. A speaker in the second period using a comparison step of comparing each period and obtaining a comparison result for each first period and a plurality of the comparison results obtained in a second period longer than the first period. It is a speaker identification method in which a computer executes a specific process for specifying.
本発明の第三態様は、複数の対象者にそれぞれ対応して設けられた複数のマイクロフォンによって取得された複数の音声データを用いて、話者を特定するための話者特定プログラムであって、前記音声データ毎に、音の大きさに関する特徴を示す代表値を所定の第1期間毎に取得する代表値取得処理と、異なる2つの前記音声データから取得された2つの前記代表値同士を前記第1期間毎に比較し、比較結果を前記第1期間毎に得る比較処理と、前記第1期間よりも長い第2期間に得られた複数の前記比較結果を用いて、前記第2期間における話者を特定する特定処理とをコンピュータに実行させるための話者特定プログラムである。 A third aspect of the present invention is a speaker identification program for identifying a speaker by using a plurality of voice data acquired by a plurality of microphones provided corresponding to a plurality of subjects. For each of the voice data, a representative value acquisition process of acquiring a representative value indicating a characteristic regarding the loudness of the sound for each predetermined first period, and two representative values acquired from the two different voice data are said to be the same. In the second period, the comparison process of comparing each first period and obtaining the comparison result for each first period and the plurality of the comparison results obtained in the second period longer than the first period are used. It is a speaker identification program for causing a computer to execute a specific process for identifying a speaker.
本発明によれば、事前の作業を不要とし、より簡便に話者を特定することができるという効果を奏する。 According to the present invention, there is an effect that the speaker can be identified more easily without the need for prior work.
以下に、本発明に係る話者特定装置、話者特定方法、及び話者特定プログラムの一実施形態について、図面を参照して説明する。以下、説明の便宜上、まず最初に、人物が2名の場合を例示して説明し、次に、人物が3名の場合を例示して説明する。 Hereinafter, an embodiment of a speaker identification device, a speaker identification method, and a speaker identification program according to the present invention will be described with reference to the drawings. Hereinafter, for convenience of explanation, first, a case where there are two persons will be described as an example, and then, a case where there are three persons will be illustrated and described.
図1は、本発明の一実施形態に係る話者特定システム1の構成を概略的に示した図である。図1に示すように、本実施形態に係る話者特定システム1は、複数のマイクロフォン(以下、単に「マイク」という。)10、20と、マイク10、20によって取得された音声データに基づいて話者を特定する話者特定装置50とを備えている。
FIG. 1 is a diagram schematically showing a configuration of a
マイク10、20は、例えば、図2に示すように、人物A、Bに対応して設けられる。図2において、人物Aに対応してマイク10が、人物Bに対応してマイク20が設けられている。マイク10は、人物Aからの距離La10と人物Bからの距離Lb10とが異なる位置に配置されている。同様に、マイク20は、人物Aからの距離La20と人物Bからの距離Lb20とが異なる位置に配置されている。なお、各マイク10、20は、各人物A、Bに装着されていてもよい。
The
図2において、マイク10は、人物Bよりも人物Aに近い位置に配置され、マイク20は、人物Aよりも人物Bに近い位置に配置されている。すなわち、各人物A、Bからマイク10、20までの距離には、以下の(1)、(2)式に示す関係が成立している。
In FIG. 2, the
La10<Lb10 (1)
Lb20<La20 (2)
La10 <Lb10 (1)
Lb20 <La20 (2)
図3は、話者特定装置50のハードウェア構成の一例を示した概略構成図である。図3に示すように、話者特定装置50は、例えば、CPU11、CPU11が実行するプログラム及びこのプログラムにより参照されるデータ等を記憶するための補助記憶装置12、各プログラム実行時のワーク領域として機能する主記憶装置13、外部機器(例えば、マイク10、20等)やネットワークに接続するための少なくとも一つの通信インターフェース14等を備えている。また、話者特定装置50は、例えば、キーボード、マウス、ポインティングデバイス等のユーザインタフェースとして機能する入力部15、液晶ディスプレイ等の表示部16等を備えていてもよい。
これら各部は、例えば、バス18を介して接続されている。補助記憶装置12は、例えば、HDD(Hard Disk Drive)などの磁気ディスク、光磁気ディスク、SSD(Solid State Drive)等の半導体メモリ等が一例として挙げられる。
FIG. 3 is a schematic configuration diagram showing an example of the hardware configuration of the
Each of these parts is connected via, for example, a
後述する各種機能を実現するための一連の処理は、一例として、プログラム(例えば、話者特定プログラム)の形式で補助記憶装置12に記憶されており、このプログラムをCPU11が主記憶装置13に読み出して、情報の加工・演算処理を実行することにより、各種機能が実現される。なお、プログラムは、補助記憶装置12に予めインストールされている形態や、他のコンピュータ読み取り可能な記憶媒体に記憶された状態で提供される形態、有線又は無線による通信手段を介して配信される形態等が適用されてもよい。コンピュータ読み取り可能な記憶媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等である。
As an example, a series of processes for realizing various functions described later are stored in the
図4は、本実施形態に係る話者特定装置50が有する機能を模式的に示した機能ブロック図である。図4に示すように、話者特定装置50は、例えば、音声データ記憶部51、代表値取得部52、標準化処理部53、比較部54、及び特定部55を備えている。
FIG. 4 is a functional block diagram schematically showing the functions of the
音声データ記憶部51には、マイク10、20によって取得された音声データD1、D2が格納される。
例えば、マイク10、20と話者特定装置50とが有線回線または無線回線を介して接続されている場合、話者特定装置50は、マイク10、20から出力される音声データを有線回線又は無線回線を介して取得し、音声データ記憶部51に格納する。また、話者特定装置50とマイク10、20とは他の端末等を介して間接的に接続されていてもよい。
The voice
For example, when the
例えば、マイク10、20によって取得された音声データをマイク10、20に接続される記憶媒体に一旦記憶しておき、その後、所定のタイミングで、記憶媒体に格納されている音声データを通信媒体を介して話者特定装置50に転送することとしてもよい。この場合、マイク10、20と記憶媒体とは個別に設けられていてもよいし、ボイスレコーダのように、音声取得機能と記憶媒体とが一体化された装置とされていてもよい。また、話者特定装置50は、クラウド上に存在していてもよい。
For example, the voice data acquired by the
また、上記例は一例であり、マイク10、20によって取得された音声データを話者特定装置50が取得する手法については、多種多様な公知の手法を採用することが可能である。
上記の通り、音声データ記憶部51には、マイク10によって取得された音声データD1、マイク20によって取得された音声データD2が格納される。
図5は、マイク10によって取得される音声データD1及びマイク20によって取得される音声データD2の波形の一例を模式的に示した図である。
Further, the above example is an example, and a wide variety of known methods can be adopted as a method for the
As described above, the voice
FIG. 5 is a diagram schematically showing an example of waveforms of the voice data D1 acquired by the
代表値取得部52は、音声データ記憶部51に格納されている音声データD1、D2毎に音の大きさに関する特徴を示す代表値を所定の第1期間毎に取得する。図6は、図5に示した音声データD1の時間軸を拡大して示した図である。図6に示すように、音声データD1は、少なくとも音声が取得された時刻に関連付けられた音声強度を含むデータである。
The representative
代表値取得部52は、例えば、音声データD1から所定の第1期間TWi(i=1〜n)毎に代表値Uiをそれぞれ取得する。第1期間TWiは、例えば、音声データに基づく音波波形の一周期よりも長い期間に設定されている。一例として、音声データのサンプリング周波数が44.1kHzに設定されている場合、第1期間TWiは、1ms以上30ms以下の範囲内、好ましくは、5ms以上20ms以下の範囲内に設定されている。
The representative
このような範囲に第1期間TWiを設定することにより、適切な代表値を取得することが可能となる。なお、第1期間TWiに含まれるサンプリングデータの数は、話者の声の高さに応じて変化する。声が高ければ第1期間TWiに含まれるサンプリングデータ数は多くなる。したがって、例えば、事後的に話者の特定処理を行う場合には、取得した音声データD1、D2の周波数に応じて、第1期間TWiに含まれるデータ数がほぼ均等になるように、第1期間TWiを動的に変化させることとしてもよい。 By setting the first period TWi in such a range, it is possible to acquire an appropriate representative value. The number of sampling data included in the first period TWi changes according to the pitch of the speaker's voice. If the voice is high, the number of sampling data included in the first period TWi increases. Therefore, for example, when the speaker is identified after the fact, the first is such that the number of data included in the first period TWi is substantially equal according to the frequencies of the acquired voice data D1 and D2. The period TWi may be changed dynamically.
代表値は、例えば、各第1期間TWiにおける最大値である。また、代表値は、最大振幅値であってもよいし、最小強度値と最大強度値との差分であってもよい。また、例えば、各音声強度の絶対値のうち、所定の閾値以上の値を抽出し、抽出した値の平均値を代表値としてもよい。このように、代表値は、各第1期間TWiにおいて音の大きさの特徴を示す特徴量であればよく、具体的な決定手法については適宜設定することが可能である。なお、以下においては、説明の便宜上、最大値を代表値として採用する場合を例示して説明する。 The representative value is, for example, the maximum value in each first period TWi. Further, the representative value may be the maximum amplitude value or the difference between the minimum intensity value and the maximum intensity value. Further, for example, among the absolute values of each voice intensity, a value equal to or higher than a predetermined threshold value may be extracted, and the average value of the extracted values may be used as a representative value. As described above, the representative value may be a feature amount indicating the characteristic of loudness in each first period TWi, and a specific determination method can be appropriately set. In the following, for convenience of explanation, a case where the maximum value is adopted as a representative value will be described as an example.
上記のように、代表値取得部52は、音声データD1において、各第1期間TWiにおける最大値Uiを代表値として取得する。また、代表値取得部52は、音声データD2においても同様に、各第1期間TWi(i=1〜n)における最大値Viを代表値として取得する。
As described above, the representative
標準化処理部53は、代表値取得部52によって取得された代表値Ui、Viを標準化する。例えば、話者の声の大きさが異なる場合、各マイク10、20によって取得される音波の強度に不均衡が生じることとなる。標準化処理部53は、話者の声の大きさによる音声強度のアンバランスを解消するため、標準化処理を行う。
The
例えば、標準化処理は以下のように行われる。
まず、標準化処理部53は、音声データD1の代表値Ui(i=1〜n)の平均値X、音声データD2の代表値Vi(i=1〜n)の平均値Yを算出する。
For example, the standardization process is performed as follows.
First, the
(3)、(4)式において、nは音声データD1、D2における代表値の数、換言すると、第1期間TWiの数である。 In the equations (3) and (4), n is the number of representative values in the voice data D1 and D2, in other words, the number of TWi in the first period.
続いて、標準化処理部53は、上記代表値の平均値X、Yを用いて、各代表値Ui(i=1〜n)、Vi(i=1〜n)を標準化した標準化代表値Ui_st(i=1〜n)、Vi_st(i=1〜n)を算出する。標準化処理の演算式は以下の通りである。
Subsequently, the
比較部54は、異なる各音声データD1、D2から取得された2つの標準化代表値同士を第1期間TWi毎に比較し、第1期間TWi毎に比較結果を得る。
具体的には、比較部54は、同じ第1期間TWi(i=1〜n)に得られた標準化代表値Ui_st、Vi_stの差分di(i=1〜n)を演算する。演算式は以下の(7)式で表される。
The
Specifically, the
di=Ui_st−Vi_st (7) di = Ui_st-Vi_st (7)
特定部55は、第1期間TWiよりも長い第2期間TYj(j=1〜m)毎に、第2期間TYj内に得られた複数の比較結果diを用いて話者を特定する。
例えば、特定部55は、第2期間TYj毎に差分diの平均値である差分平均値dj_aveを算出する。
The
For example, the
例えば、第2期間TYjは、第1期間TWiの5倍以上の期間に設定される。本実施形態では、一例として、第2期間TYjは、250msに設定されている。例えば、第1期間TWiが10msに設定されている場合、各第2期間TYjには25個の差分diが存在することとなるので、それら25個の差分diの平均値dj_aveを算出する。
ここで、上記250msは第2期間TYjの一例であり、例えば、要求精度を満足する精度で話者を特定できるような範囲に設定されていればよい。具体的には、第2期間TYjは、第1期間の5倍以上の期間に設定される。
For example, the second period TYj is set to a period five times or more that of the first period TWi. In the present embodiment, as an example, the second period TYj is set to 250 ms. For example, when the first period TWi is set to 10 ms, there are 25 difference dis in each second period TYj, so the average value dj_ave of the 25 difference dis is calculated.
Here, the above 250 ms is an example of the second period TYj, and may be set in a range in which the speaker can be specified with an accuracy that satisfies the required accuracy, for example. Specifically, the second period TYj is set to a period five times or more the first period.
続いて、特定部55は、差分平均値dj_aveが正の値(すなわち、dj_ave>0)か負の値(dj_ave<0)かを判別する。なお、差分平均値の絶対値が所定の閾値以下の場合には、ゼロと判定する。すなわち、この場合には、誰も発話していないか、もしくはノイズであると判定する。そして、図7に示すように、同じ正負の符号またはゼロが所定回数(図7では、6回)または所定期間以上連続した場合に、その符号に応じた人物が話者であると特定する。
Subsequently, the
例えば、図7に示すように、第2期間TYjにおける正負の符号が、正が6回、負が2回、0(ゼロ)が2回、負が1回、正が7回、負が1回、正が2回、負が8回、正が1回、0(ゼロ)が6回のように現れた場合を想定する。このような場合、正が6回現れた後に、負またはゼロが6回連続して現れるまでは、話者が人物Aと特定される。そして、例えば、負の符号が6回続いた場合には、話者が人物Aから人物Bに切り替わったと判定し、その負の符号が最初に現れた時点から話者が人物Bであると特定される。そして、次に、正の符号またはゼロが6回以上続かない限り、話者は人物Bであると特定される。また、例えば、ゼロが6回続いた場合には、いずれの話者も発話していないと判定される。
この結果、例えば、図7に例示するように話者A、話者B、発話なしが特定されることとなる。
このように、正、負、またはゼロの符号が所定回数または所定期間以上連続した場合に、話者が切り替わった、または、いずれの話者も発話していないと判定することにより、ノイズの影響による話者の誤った判別を抑制することができる。
For example, as shown in FIG. 7, the positive and negative signs in the second period TYj are positive 6 times, negative 2 times, 0 (zero) 2 times, negative 1 time, positive 7 times, negative 1 It is assumed that the number of times, the positive number is 2 times, the negative number is 8 times, the positive number is 1 time, and 0 (zero) is 6 times. In such a case, the speaker is identified as person A until a positive appears six times and then a negative or zero appears six times in a row. Then, for example, when the negative sign continues 6 times, it is determined that the speaker has switched from the person A to the person B, and the speaker is identified as the person B from the time when the negative sign first appears. Will be done. Then, the speaker is identified as person B unless a positive sign or zero continues six or more times. Further, for example, when zero continues 6 times, it is determined that no speaker has spoken.
As a result, for example, speaker A, speaker B, and no utterance are specified as illustrated in FIG. 7.
In this way, when the positive, negative, or zero signs are continuous for a predetermined number of times or for a predetermined period or more, it is determined that the speaker has been switched or none of the speakers is speaking, and thus the influence of noise It is possible to suppress the erroneous discrimination of the speaker due to.
次に、上述した本実施形態に係る話者特定方法について、図8を参照して簡単に説明する。
まず、マイク10、20によって人物A、Bが発話した音声データD1、D2が取得され、話者特定装置50の音声データ記憶部51に格納される(SA1)。
続いて、音声データD1、D2のそれぞれにおいて、第1期間TWi毎の代表値Ui、Viを取得し(SA2)、更に、各代表値Ui、Viを標準化した標準化代表値Ui_st、Vi_stを算出する(SA3)。
続いて、第1期間TWi毎の標準化代表値の差分diを算出し(SA4)、第1期間TWiよりも長い第2期間TYj毎に差分平均値dj_aveを算出する(SA5)。
Next, the speaker identification method according to the present embodiment described above will be briefly described with reference to FIG.
First, the voice data D1 and D2 spoken by the persons A and B are acquired by the
Subsequently, in each of the audio data D1 and D2, the representative values Ui and Vi for each TWi in the first period are acquired (SA2), and further, the standardized representative values Ui_st and Vi_st are calculated by standardizing the representative values Ui and Vi. (SA3).
Subsequently, the difference di of the standardized representative value for each first period TWi is calculated (SA4), and the difference average value dj_ave is calculated for each second period TYj longer than the first period TWi (SA5).
続いて、第2期間TYj毎に差分平均値dj_aveの正負を判定し(SA6)、正負の連続状況に応じて、例えば、同じ符号が所定回数(例えば、6個)連続した場合に、その正負に応じた話者による発話が行われていると特定する(SA7)。例えば、本実施形態では、上述した(7)式に示したように、差分diを算出するときに、音声データD1の標準化代表値Ui_stから音声データD2の標準化代表値Vi_stを差し引いているため、符号が正の場合には音声データD1に対応する人物Aが発話していると判定し、符号が負の場合には音声データD2に対応する人物Bが発話していると判定する。 Subsequently, the positive / negative of the difference mean value dj_ave is determined for each second period TYj (SA6), and depending on the continuous situation of positive / negative, for example, when the same code is consecutive a predetermined number of times (for example, 6), the positive / negative It is specified that the speaker is speaking according to the above (SA7). For example, in the present embodiment, as shown in the above equation (7), when the difference di is calculated, the standardized representative value Vi_st of the voice data D2 is subtracted from the standardized representative value Ui_st of the voice data D1. When the code is positive, it is determined that the person A corresponding to the voice data D1 is speaking, and when the code is negative, it is determined that the person B corresponding to the voice data D2 is speaking.
以上説明してきたように、本実施形態に係る発話特定装置、発話特定方法、及び発話特定プログラムによれば、代表値取得部52によって各音声データD1、D2における代表値Ui、Viが第1期間TWi毎に取得され、標準化処理部53によって代表値Ui、Viが標準化される。そして、比較部54によって、第1期間TWi毎に、異なる2つの音声データD1、D2から取得された2つの標準化代表値Ui_st、Vi_stが比較されて、比較結果が得られる。そして、特定部55によって、第1期間TWiよりも長い第2期間TYjに得られた複数の比較結果を用いて、第2期間TYjにおける話者が特定される。このように、サンプリングされた全ての音声データD1、D2を用いるのではなく、各第1期間TWiにおける代表値Ui、Viを取得して話者の特定に用いることとしたので、音声データD1、D2に含まれるノイズを低減することができるとともに、処理するデータ量を低減することができる。
As described above, according to the utterance identification device, the utterance identification method, and the utterance identification program according to the present embodiment, the representative
更に、代表値Ui、Viを標準化することとしたので、音声データ間における音声強度のアンバランスを抑制することが可能となる。
また、比較部54によって、第1期間TWi毎に得られた2つの標準化代表値Ui_st、Vi_stの差分diを第2期間TYjにおいて平均化した差分平均値dj_aveを用いて第2期間TYjにおける話者を特定するので、音声データD1、D2に含まれるノイズの影響によって話者が頻繁に切り替えられることを抑制することができ、話者の特定精度を向上させることが可能となる。
Further, since the representative values Ui and Vi are standardized, it is possible to suppress the imbalance of voice intensity between the voice data.
Further, the speaker in the second period TYj using the difference average value dj_ave obtained by averaging the difference di of the two standardized representative values Ui_st and Vi_st obtained for each TWi in the first period by the
更に、本実施形態によれば、特定部55は、差分平均値dj_aveの正負を判定し、同じ符号が所定回数または所定期間連続した場合に、その符号に対応する話者が発話していると判定するので、話者の頻繁な切替を更に抑制することが可能となる。すなわち、本実施形態では、第2期間TYjを250msに設定しているが、話者が250ms単位で切り替えられることはあまり現実的ではない。本実施形態によれば、第2期間TYj毎に得られた差分平均値dj_aveにおいて同じ正負符号が所定回数または所定期間以上連続した場合に、その符号に対応する人物が発話していると判定するので、話者の特定精度を更に向上させることができる。なお、この特定手法は一例であり、例えば、話者の特定精度は低下するが、第2期間TYj毎に話者を特定することも可能である。
Further, according to the present embodiment, the
なお、上記実施形態では、標準化された代表値Ui_st、Vi_stを用いて比較結果を得たが、標準化は必須ではなく、比較部54は、標準化されていない代表値Ui、Viを用いて差分diを得ることとしてもよい。
In the above embodiment, the standardized representative values Ui_st and Vi_st are used to obtain the comparison result, but the standardization is not essential, and the
次に、本発明の一実施形態に係る発話特定装置、発話特定方法、及び発話特定プログラムについて、人物が3名の場合を例示して説明する。なお、以下の説明については、上述した話者が2名の場合と共通する点については説明を省略し、異なる点について主に説明する Next, the utterance identification device, the utterance identification method, and the utterance identification program according to the embodiment of the present invention will be described by way of example when there are three persons. Regarding the following explanations, the points common to the above-mentioned case of two speakers will be omitted, and the differences will be mainly explained.
図9は、話者が3名の場合における話者特定システム1´の構成を概略的に示した図である。図9に示すように、話者特定システム1´は、図1に示した構成に加えて、人物Cに対応するマイクロフォン(マイク)30が追加され、マイク30によって取得された音声データD3が話者特定装置50に入力されるようになっている。
FIG. 9 is a diagram schematically showing the configuration of the speaker identification system 1'when there are three speakers. As shown in FIG. 9, in the speaker identification system 1', in addition to the configuration shown in FIG. 1, a microphone (microphone) 30 corresponding to the person C is added, and the voice data D3 acquired by the
図10は、各人物A〜Cと各マイク10、20、30との配置について示した図である。図10において、人物Cに対応してマイク30が設けられている。マイク10は、人物Aからの距離LA10と人物Bからの距離Lb10と人物Cからの距離Lc10とが異なる位置に配置されている。同様に、マイク20は、人物Aからの距離La20と、人物Bからの距離Lb20と、人物Cからの距離Lc20とが異なる位置に配置されている。また、マイク30は、人物Aからの距離La30と、人物Bからの距離Lb30と、人物Cからの距離Lc30とが異なる位置に配置されている。
なお、各マイク10、20、30は、各人物A〜Cにそれぞれ装着されていてもよい。
FIG. 10 is a diagram showing the arrangement of the persons A to C and the
The
図10において、マイク10は、いずれの人物B、Cよりも人物Aに近い位置に配置され、マイク20は、いずれの人物A、Cよりも人物Bに近い位置に配置され、マイク30は、いずれの人物A、Bよりも人物Cに近い位置に配置されている。すなわち、各人物A、B、Cからマイク10、20、30までの距離には、以下の(8)〜(13)式に示す関係が成立している。
In FIG. 10, the
La10<Lb10 (8)
La10<Lc10 (9)
Lb20<La20 (10)
Lb20<Lc20 (11)
Lc30<La30 (12)
Lc30<Lb30 (13)
La10 <Lb10 (8)
La10 <Lc10 (9)
Lb20 <La20 (10)
Lb20 <Lc20 (11)
Lc30 <La30 (12)
Lc30 <Lb30 (13)
次に、マイク10、20、30によって取得された音声データD1〜D3に基づいて話者を特定する方法について説明する。なお、話者特定装置50が備える機能ブロックは図4に示した機能と同様であるが、各部が音声データD3についても同様の処理を行う点及び特定部55における話者の特定手法が多少異なる。
Next, a method of identifying the speaker based on the voice data D1 to D3 acquired by the
まず、音声データ記憶部51には、マイク10によって取得された音声データD1、マイク20によって取得された音声データD2、及びマイク30によって取得された音声データD3が格納される。
First, the voice
代表値取得部52は、上述した2名の話者の場合と同様の手法で、各音声データD1〜D3について、第1期間TWi毎に代表値を取得する。例えば、代表値取得部52は、音声データD1について、各第1期間TWi(i=1〜n、以下同様)における最大値Uiを代表値として取得し、音声データD2において、各第1期間TWiにおける最大値Viを代表値として取得し、音声データD3において、各第1期間TWiにおける最大値Wiを代表値として取得する。
The representative
標準化処理部53は、代表値取得部52によって取得された代表値Ui、Vi、Wiを標準化し、標準化代表値Ui_st_uv、Ui_st_uw、Vi_st_uv、Vi_st_vw、Wi_st_uw、Wi_st_vwをそれぞれ取得する。例えば、標準化処理は以下のように行われる。
まず、標準化処理部53は、音声データD1の代表値Ui(i=1〜n)の平均値X、音声データD2の代表値Vi(i=1〜n)の平均値Y、音声データD3の代表値Wi(i=1〜n)の平均値Zを算出する。
The
First, the
(14)〜(16)式において、nは音声データD1、D2、D3における代表値の数、換言すると、第1期間TWiの数である。 In the equations (14) to (16), n is the number of representative values in the voice data D1, D2, and D3, in other words, the number of the first period TWi.
続いて、標準化処理部53は、上記代表値の平均値X、Y、Zを用いて、音声データD1と音声データD2との組み合わせ、音声データD1と音声データD3との組み合わせ、及び音声データD2と音声データD3との組み合わせのそれぞれについて標準化代表値を算出する。
Subsequently, the
例えば、音声データD1と音声データD2との組み合わせにおけるデータ標準化は以下の通りである。 For example, the data standardization in the combination of the voice data D1 and the voice data D2 is as follows.
例えば、音声データD1と音声データD3との組み合わせにおけるデータ標準化は以下の通りである。 For example, the data standardization in the combination of the voice data D1 and the voice data D3 is as follows.
例えば、音声データD2と音声データD3との組み合わせにおけるデータ標準化は以下の通りである。 For example, the data standardization in the combination of the voice data D2 and the voice data D3 is as follows.
次に、比較部54は、第1期間TWi毎に、異なる各音声データD1、D2、D3からそれぞれ取得された標準化代表値のうち、音声データD1と音声データD2との間の標準化代表値の差分di_uv、音声データD1と音声データD3との間の標準化代表値の差分di_uw、音声データD2と音声データD3との間の標準化代表値の差分di_vwをそれぞれ算出する。演算式は以下の通りである。
Next, the
di_uv=Ui_st_uv−Vi_st_uv (23)
di_uw=Ui_st_uw−Wi_st_uw (24)
di_vw=Vi_st_vw−Wi_st_vw (25)
di_uv = Ui_st_uv-Vi_st_uv (23)
di_uuw = Ui_st_uuw-Wi_st_uuw (24)
di_vw = Vi_st_vw-Wi_st_vw (25)
特定部55は、第1期間TWiよりも長い第2期間TYj毎に、第2期間TYj内に得られた複数の比較結果を用いて話者を特定する。
例えば、特定部55は、第2期間TYj毎に差分di_uv、di_uw、di_vwの平均値である差分平均値dj_uv_ave、dj_uw_ave、dj_vw_aveを算出する。
The
For example, the
続いて、特定部55は、差分平均値dj_uv_ave、dj_uw_ave、dj_vw_aveが正の値か負の値かを判定する。なお、差分平均値の絶対値が所定の閾値以下の場合には、ゼロと判定する。すなわち、この場合には、差分を算出するのに使用した音声データに対応する話者以外の話者が発話していると判定する。
Subsequently, the
なお、人物が3名の場合にも、図11に示すように、同じ符号が所定数以上連続して(または、所定期間以上連続して)発生した場合に、その符号に応じた人物を話者として特定する。また、いずれの組み合わせ(dj_uv_ave、dj_uw_ave、dj_vw_ave)においてもゼロが所定数以上連続して発生した場合には、いずれの人物も発話していないと判定する。これにより、図11に示すように、話者が人物Aであるのか、人物Bであるのか、人物Cであるのか、あるいは、いずれの人物も発話していないこと(発話なし)を特定することができる。 Even when there are three persons, as shown in FIG. 11, when the same code occurs continuously for a predetermined number or more (or continuously for a predetermined period or more), the person corresponding to the code is spoken. Identify as a person. Further, in any combination (dj_uv_ave, dj_uw_ave, dj_vw_ave), when zeros occur continuously for a predetermined number or more, it is determined that no person is speaking. Thereby, as shown in FIG. 11, it is specified whether the speaker is person A, person B, person C, or none of the persons speaks (no utterance). Can be done.
以上説明したように、3名以上の人物がいる場合には、比較部54は、異なる2つの音声データの組み合わせを生成し、生成した組み合わせにおける音声データの標準化代表値の差分をそれぞれ算出する。そして、特定部55は、各音声データの組合せにおいて、算出した標準化代表値の差分を第2期間TYj毎に平均することで差分平均値を算出し、その差分平均値の正、負、ゼロの状況を総合的に判断して、話者を特定する。
As described above, when there are three or more persons, the
以上説明してきたように、人物が3名以上存在する場合においても、異なる2つの音声データからなる組み合わせを複数作成し、各組合わせにおいてそれぞれの差分平均値を算出し、その差分平均値の符号の状況を総合的に判断することで、話者を特定することが可能となる。 As described above, even when there are three or more persons, a plurality of combinations consisting of two different voice data are created, the difference average value is calculated for each combination, and the code of the difference average value is calculated. It is possible to identify the speaker by comprehensively judging the situation of.
以上、本発明について実施形態を用いて説明したが、本発明の技術的範囲は上記実施形態に記載の範囲には限定されない。発明の要旨を逸脱しない範囲で上記実施形態に多様な変更又は改良を加えることができ、該変更又は改良を加えた形態も本発明の技術的範囲に含まれる。また、上記実施形態を適宜組み合わせてもよい。
また、上記実施形態で説明した話者特定処理の流れも一例であり、本発明の主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよい。
Although the present invention has been described above using the embodiments, the technical scope of the present invention is not limited to the scope described in the above embodiments. Various changes or improvements can be made to the above embodiments without departing from the gist of the invention, and the modified or improved forms are also included in the technical scope of the present invention. Moreover, you may combine the said embodiment as appropriate.
Further, the flow of the speaker identification process described in the above embodiment is also an example, and unnecessary steps may be deleted, new steps may be added, or the processing order may be changed within a range not deviating from the gist of the present invention. You may.
1、1´ :話者特定システム
10 :マイクロフォン(マイク)
11 :CPU
12 :補助記憶装置
13 :主記憶装置
14 :通信インターフェース
15 :入力部
16 :表示部
18 :バス
20 :マイクロフォン(マイク)
30 :マイクロフォン(マイク)
50 :話者特定装置
51 :音声データ記憶部
52 :代表値取得部
53 :標準化処理部
54 :比較部
55 :特定部
1, 1': Speaker identification system 10: Microphone (microphone)
11: CPU
12: Auxiliary storage device 13: Main storage device 14: Communication interface 15: Input unit 16: Display unit 18: Bus 20: Microphone (microphone)
30: Microphone (microphone)
50: Speaker identification device 51: Voice data storage unit 52: Representative value acquisition unit 53: Standardization processing unit 54: Comparison unit 55: Identification unit
Claims (10)
前記音声データ毎に、音の大きさに関する特徴を示す代表値を所定の第1期間毎に取得する代表値取得部と、
異なる2つの前記音声データから取得された2つの前記代表値同士を前記第1期間毎に比較し、比較結果を前記第1期間毎に得る比較部と、
前記第1期間よりも長い第2期間に得られた複数の前記比較結果を用いて、前記第2期間における話者を特定する特定部と
を具備する話者特定装置。 It is a speaker identification device that identifies a speaker by using a plurality of voice data acquired by a plurality of microphones provided corresponding to a plurality of target persons.
For each voice data, a representative value acquisition unit that acquires a representative value indicating a feature regarding loudness for each predetermined first period, and a representative value acquisition unit.
A comparison unit that compares two representative values acquired from two different voice data for each first period and obtains a comparison result for each first period.
A speaker identification device including a specific unit for identifying a speaker in the second period by using a plurality of the comparison results obtained in a second period longer than the first period.
前記比較部は、前記標準化代表値を前記代表値として用いて、前記比較結果を得る請求項1に記載の話者特定装置。 A standardization processing unit for calculating a standardized representative value obtained by standardizing the representative value between the voice data is provided.
The speaker identification device according to claim 1, wherein the comparison unit uses the standardized representative value as the representative value to obtain the comparison result.
前記特定部は、前記差分を前記第2期間毎に平均化した差分平均値を算出し、前記差分平均値の正負に基づいて話者を特定する請求項1または2に記載の話者特定装置。 The comparison unit calculates the difference between the two representative values acquired from the two different voice data for each first period.
The speaker identification device according to claim 1 or 2, wherein the identification unit calculates a difference average value obtained by averaging the difference for each second period, and identifies a speaker based on the positive or negative of the difference average value. ..
前記特定部は、それぞれの前記組み合わせにおいて、前記第2期間に得られた複数の前記比較結果を用いて、前記第2期間における話者を特定する請求項1から4のいずれかに記載の話者特定装置。 When three or more of the microphones are installed, the comparison unit generates a combination of two different microphones, and obtains the voice data obtained from the two voice data corresponding to each of the generated combinations. The representative values are compared for each of the first periods, and the comparison result is obtained.
The story according to any one of claims 1 to 4, wherein the specific unit identifies a speaker in the second period by using a plurality of the comparison results obtained in the second period in each of the combinations. Person identification device.
前記第1期間は、1ms以上30ms以下の範囲内に設定されている請求項1から6のいずれかに記載の話者特定装置。 The sampling frequency of the audio data is 44.1 kHz.
The speaker identifying device according to any one of claims 1 to 6, wherein the first period is set within a range of 1 ms or more and 30 ms or less.
前記音声データ毎に、音の大きさに関する特徴を示す代表値を所定の第1期間毎に取得する代表値取得工程と、
異なる2つの前記音声データから取得された2つの前記代表値同士を前記第1期間毎に比較し、比較結果を前記第1期間毎に得る比較工程と、
前記第1期間よりも長い第2期間に得られた複数の前記比較結果を用いて、前記第2期間における話者を特定する特定工程と
をコンピュータが実行する話者特定方法。 It is a speaker identification method that identifies a speaker by using a plurality of voice data acquired by a plurality of microphones provided corresponding to a plurality of target persons.
A representative value acquisition step of acquiring a representative value indicating a characteristic of loudness for each of the voice data for each predetermined first period,
A comparison step of comparing two representative values acquired from two different voice data for each first period and obtaining a comparison result for each first period.
A speaker identification method in which a computer executes a specific step of identifying a speaker in the second period by using a plurality of the comparison results obtained in a second period longer than the first period.
前記音声データ毎に、音の大きさに関する特徴を示す代表値を所定の第1期間毎に取得する代表値取得処理と、
異なる2つの前記音声データから取得された2つの前記代表値同士を前記第1期間毎に比較し、比較結果を前記第1期間毎に得る比較処理と、
前記第1期間よりも長い第2期間に得られた複数の前記比較結果を用いて、前記第2期間における話者を特定する特定処理と
をコンピュータに実行させるための話者特定プログラム。
It is a speaker identification program for identifying a speaker by using a plurality of voice data acquired by a plurality of microphones provided corresponding to a plurality of target persons.
For each voice data, a representative value acquisition process for acquiring a representative value indicating a characteristic regarding loudness for each predetermined first period, and a representative value acquisition process.
A comparison process in which two representative values acquired from two different voice data are compared for each first period and a comparison result is obtained for each first period.
A speaker identification program for causing a computer to perform a specific process for identifying a speaker in the second period by using a plurality of the comparison results obtained in a second period longer than the first period.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019096691A JP2020190669A (en) | 2019-05-23 | 2019-05-23 | Speaker identification device, speaker identification method, and speaker identification program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019096691A JP2020190669A (en) | 2019-05-23 | 2019-05-23 | Speaker identification device, speaker identification method, and speaker identification program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020190669A true JP2020190669A (en) | 2020-11-26 |
Family
ID=73453661
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019096691A Pending JP2020190669A (en) | 2019-05-23 | 2019-05-23 | Speaker identification device, speaker identification method, and speaker identification program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020190669A (en) |
-
2019
- 2019-05-23 JP JP2019096691A patent/JP2020190669A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8775173B2 (en) | Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program | |
KR101153093B1 (en) | Method and apparatus for multi-sensory speech enhamethod and apparatus for multi-sensory speech enhancement ncement | |
US6721699B2 (en) | Method and system of Chinese speech pitch extraction | |
WO2019232884A1 (en) | Voice endpoint detection method and apparatus, computer device and storage medium | |
JP5870476B2 (en) | Noise estimation device, noise estimation method, and noise estimation program | |
EP2083417B1 (en) | Sound processing device and program | |
EP3276621B1 (en) | Noise suppression device and noise suppressing method | |
JP6641832B2 (en) | Audio processing device, audio processing method, and audio processing program | |
JP2019101385A (en) | Audio processing apparatus, audio processing method, and audio processing program | |
CN112951259A (en) | Audio noise reduction method and device, electronic equipment and computer readable storage medium | |
KR20180067920A (en) | System and method for end-point detection of speech based in harmonic component | |
JP5803125B2 (en) | Suppression state detection device and program by voice | |
JP6389787B2 (en) | Speech recognition system, speech recognition method, program | |
JP2016033530A (en) | Utterance section detection device, voice processing system, utterance section detection method and program | |
JP2020190669A (en) | Speaker identification device, speaker identification method, and speaker identification program | |
CN113851114B (en) | Method and device for determining fundamental frequency of voice signal | |
JP2016180918A (en) | Voice recognition system, voice recognition method, and program | |
US11620990B2 (en) | Adapting automated speech recognition parameters based on hotword properties | |
JP6106618B2 (en) | Speech section detection device, speech recognition device, method thereof, and program | |
CN107039046B (en) | Voice sound effect mode detection method based on feature fusion | |
JP2015031913A (en) | Speech processing unit, speech processing method and program | |
US11790931B2 (en) | Voice activity detection using zero crossing detection | |
JP2019060976A (en) | Voice processing program, voice processing method and voice processing device | |
US20220130405A1 (en) | Low Complexity Voice Activity Detection Algorithm | |
JP2019045527A (en) | Voice processing program, voice processing method and voice processing device |