JP2022071960A - Utterance cutting and dividing system and method therefor - Google Patents
Utterance cutting and dividing system and method therefor Download PDFInfo
- Publication number
- JP2022071960A JP2022071960A JP2020181115A JP2020181115A JP2022071960A JP 2022071960 A JP2022071960 A JP 2022071960A JP 2020181115 A JP2020181115 A JP 2020181115A JP 2020181115 A JP2020181115 A JP 2020181115A JP 2022071960 A JP2022071960 A JP 2022071960A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- voice data
- speech
- speaker
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 16
- 238000001514 detection method Methods 0.000 claims abstract description 230
- 238000000926 separation method Methods 0.000 claims description 63
- 238000002955 isolation Methods 0.000 claims description 16
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 claims description 9
- 230000001360 synchronised effect Effects 0.000 claims description 9
- 238000012937 correction Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 description 19
- 101000712600 Homo sapiens Thyroid hormone receptor beta Proteins 0.000 description 12
- 102100033451 Thyroid hormone receptor beta Human genes 0.000 description 12
- 239000000203 mixture Substances 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 230000010365 information processing Effects 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 5
- 238000012790 confirmation Methods 0.000 description 4
- 238000005314 correlation function Methods 0.000 description 3
- 206010002953 Aphonia Diseases 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
Description
本発明は、会議における議事録作成やコールセンター等の通話記録作成に供される発言切り分けシステムとその方法に関するものである。 The present invention relates to a remark separation system and a method thereof used for creating minutes at a meeting and creating a call record in a call center or the like.
従来、会議や打ち合わせ等、複数の話者が発言する場において、他者と重複することのない発言区間を切り出すには、例えば、会場に設置されたマイクアレイの各マイクの音声信号に基づいて、最も信号強度の強い収音ビーム信号を選択し、それに対応する方位を検出し、方位データに基づき音の到来方向を予測し、話者を同定して識別するようにしたものが知られている(例えば、特許文献1参照)。 Conventionally, in a place where multiple speakers speak, such as a meeting or a meeting, in order to cut out a speech section that does not overlap with others, for example, based on the voice signal of each microphone of the microphone array installed at the venue. It is known that the sound pickup beam signal with the strongest signal strength is selected, the corresponding orientation is detected, the arrival direction of the sound is predicted based on the orientation data, and the speaker is identified and identified. (For example, see Patent Document 1).
また、複数のマイクから取得される複数の音声信号について、音声データから重複分を取り除く処理を行い、2以上の音声が含まれる場合、音声毎に分離して各音声信号を出力するようにしたものが知られている(例えば、特許文献2参照)。 In addition, for multiple audio signals acquired from multiple microphones, processing is performed to remove duplicates from the audio data, and when two or more audios are included, each audio signal is output separately for each audio signal. Is known (see, for example, Patent Document 2).
しかしながら、上記先行技術文献1では、方位データにより話者を識別しているので、発言を重複させないで切り分けにくく、さらに正確に話者が特定しにくいという問題がある。また、上記先行技術文献2では、分離した音声信号について、話者の発言を特徴量毎に音声信号として記憶し、特徴量毎に用意された辞書を用いるだけでなく、分離フィルタを更新する必要があり、フィルタ演算の処理が複雑になるという問題がある。
However, in the above-mentioned
本発明は上記課題を解決するためになされたもので、独立性の評価や音声の分離処理を必要とせず、類似度と音量を用いるだけの簡素な構成で、同一空間に複数の話者が存在する会議やコールセンター、インカム通話などの場において、あるいは、オンライン会議などで、他の話者の音声を自己の端末のスピーカを通じて聞きながら話し合う場において複数の話者の音声を重複することなくしかも話者とその発言を正確に特定して切り出すことができる発言切り分けシステムとその方法を提供することを目的としている。 The present invention has been made to solve the above-mentioned problems, and has a simple configuration that does not require independence evaluation or voice separation processing and only uses similarity and volume, and a plurality of speakers can be used in the same space. In an existing conference, call center, income call, etc., or in an online conference, where you talk while listening to the voice of another speaker through the speaker of your terminal, the voices of multiple speakers are not duplicated. The purpose is to provide a speech separation system and a method capable of accurately identifying and cutting out a speaker and his / her speech.
本発明の請求項1に係る発言切り分けシステムは、複数の話者の音声が混在して取得されて入力される音声データに基づいて、発言を切り出す発言切り分けシステムであって、自己の音声と他者の音声が混在して入力される話者毎の音声入力部を備え、これら音声入力部毎に取得され混在する複数の音声データを、各音声データの開始から終了までの発言区間毎に検知して自己の音声入力部から入力された自己の音声データを蓄積し、各音声入力部から取得された話者毎の蓄積された音声データを同期させて参照し、取得した話者毎の音声データの類似度を算出して類似度の高低を比較判別し、類似度が低い音声データは異なる話者の音声データとみなし、類似度が高い音声データは同一話者の音声データとみなし、これら類似度が高い話者が同一とみなされた音声データについて音声エネルギの大小を比較判別し、音声エネルギが相対的に大きいと判別された音声データを、自己の音声入力部から入力された自己の発言と特定し、自他の発言を切り分けることを特徴とするものである。
The remark separation system according to
本発明の請求項1に係る発言切り分けシステムでは、複数の話者の音声が混在して取得されて入力される音声データに基づいて、発言を切り出す発言切り分けシステムであって、自己の音声と他者の音声が混在して入力される話者毎の音声入力部を備え、これら音声入力部毎に取得され混在する複数の音声データを、各音声データの開始から終了までの発言区間毎に検知して自己の音声入力部から入力された自己の音声データを蓄積し、各音声入力部から取得された話者毎の蓄積された音声データを同期させて参照し、取得した話者毎の音声データの類似度を算出して類似度の高低を比較判別し、類似度が低い音声データは異なる話者の音声データとみなし、類似度が高い音声データは同一話者の音声データとみなし、これら類似度が高い話者が同一とみなされた音声データについて音声エネルギの大小を比較判別し、音声エネルギが相対的に大きいと判別された音声データを、自己の音声入力部から入力された自己の発言と特定し、自他の発言を切り分けるようにしたことにより、話者の発言内容を迅速かつ正確に重複することなく切り出すことができる。
The remark separation system according to
また、本発明に係る発言切り分けシステムは、自己の発言と特定された音声入力部に基づいて、話者とその発言を特定することが好ましい。係る構成とすることにより、話者の発言を、発言内容だけでなく発言内容とその話者を特定して切り出すことができる。 Further, it is preferable that the speech separation system according to the present invention identifies the speaker and the speech based on the voice input unit identified as the speaker's speech. With such a configuration, the speaker's remark can be cut out by specifying not only the remark content but also the remark content and the speaker.
本発明の請求項3に係る発言切り分けシステムは、複数の話者の音声が混在して取得されて入力される音声データに基づいて、発言を切り出す発言切り分けシステムであって、自己の音声と他者の音声が混在して入力される話者毎の音声入力部と、各音声入力部毎に設けられ、自己の音声入力部から取得され混在する複数の音声データから自己の音声データの発言開始から発言終了までの発言区間を検知する発言区間検知部と、発言区間検知部毎にそれぞれ設けられ、検知された自己の発言区間の音声データを蓄積する検知音声蓄積部と、各発言区間検知部とその検知音声蓄積部とを同期させて参照し、各発言区間検知部の検知音声蓄積部に蓄積された音声データについて、類似度を算出して類似度の高低を比較判別し、類似度が低い音声データは異なる話者の音声データとみなし、類似度が高い音声データは複数の音声入力部から取得された同一話者の音声データとみなす類似度判別部と、類似度判別部により判別された同一話者の音声データについて、音声データ毎に音声エネルギを算出して音声エネルギの大小を比較判別し、音声エネルギが相対的に高いと判別された音声データが取得された発言区間検知部を特定する音声エネルギ判別部とを有し、特定された発言区間検知部とその検知音声蓄積部に蓄積された音声データに基づいて、話者とその発言を切り出すことを特徴とするものである。
The remark separation system according to
本発明の請求項3に係る発言切り分けシステムでは、複数の話者の音声が混在して取得されて入力される音声データに基づいて、発言を切り出す発言切り分けシステムであって、自己の音声と他者の音声が混在して入力される話者毎の音声入力部と、各音声入力部毎に設けられ、自己の音声入力部から取得され混在する複数の音声データから自己の音声データの発言開始から発言終了までの発言区間を検知する発言区間検知部と、発言区間検知部毎にそれぞれ設けられ、検知された自己の発言区間の音声データを蓄積する検知音声蓄積部と、各発言区間検知部とその検知音声蓄積部とを同期させて参照し、各発言区間検知部の検知音声蓄積部に蓄積された音声データについて、類似度を算出して類似度の高低を比較判別し、類似度が低い音声データは異なる話者の音声データとみなし、類似度が高い音声データは複数の音声入力部から取得された同一話者の音声データとみなす類似度判別部と、類似度判別部により判別された同一話者の音声データについて、音声データ毎に音声エネルギを算出して音声エネルギの大小を比較判別し、音声エネルギが相対的に高いと判別された音声データが取得された発言区間検知部を特定する音声エネルギ判別部とを有し、特定された発言区間検知部とその検知音声蓄積部に蓄積された音声データに基づいて、話者とその発言を切り出すようにしたことにより、各音声入力部毎に話者が予め特定されており、発言区間毎に蓄積された音声データについて同期させて参照し、類似度判別部により類似度の高低を比較判別し、類似度の高い同一の話者とみなされた音声データについて、音声エネルギ判別部により音声エネルギの大小を比較判別するだけで、迅速かつ正確に話者とその話者が発言した音声データを重複なく切り出すことができる。
The remark separation system according to
また、本発明に係る発言切り分けシステムは、音声入力部には、自他の話者の音声が話者毎のマイクを通じて入力されるか、または自他の話者の音声が自己の端末のマイクを通じて入力されるようにすることが好ましい。係る構成とすることにより、音声入力部を自他の話者の音声が話者毎のマイクを通じて入力されるよう構成すれば、同一空間内で複数の話者が発言しても重複することなく話者とその発言を特定することができ、自他の話者の音声が自己の端末のマイクを通じて入力されるように構成すれば、遠隔地で複数の話者が端末を通じて発言しても重複することなく話者とその発言を特定することができる。さらに、本発明に係る発言切り分けシステムは、音声入力部には、自他の話者の音声が、マイクを通じてリアルタイムで入力されるか、またはすでに取得されて入力され音声データとして記録された記録部を通じて入力されるように構成することが好ましい。係る構成とすることにより、音声入力部に、自他の話者の音声が、マイクを通じてリアルタイムで入力される場合、話し合い終了後、直ちに話者とその発言のデータを入手することができる。一旦、記録部に音声データを記録してさえおけば、記録部を通じていつでも必要な時に話者とその発言のデータを入手することができる。また、本発明に係る発言切り分けシステムは、各音声入力部には、複数の話者からなる話者グループの音声が入力され、話者グループとその話者グループの発言を切り出すように構成することが好ましい。係る構成とすることにより、話者一人ひとりでなく話者グループとその話者グループ毎の発言のデータを入手することができる。 Further, in the speech isolation system according to the present invention, the voice of one's own or other speaker is input to the voice input unit through the microphone of each speaker, or the voice of one's own or other speaker is input to the microphone of its own terminal. It is preferable to input through. With this configuration, if the voice input unit is configured so that the voices of the own and other speakers are input through the microphones of each speaker, even if a plurality of speakers speak in the same space, they will not be duplicated. If the speaker and his / her speech can be identified and the voices of one's own speaker and other speakers are input through the microphone of one's own terminal, even if multiple speakers speak through the terminal at a remote location, they are duplicated. You can identify the speaker and his remarks without doing anything. Further, in the speech separation system according to the present invention, the voice input unit is a recording unit in which the voice of one's own speaker or another speaker is input in real time through a microphone, or is already acquired and input and recorded as voice data. It is preferable to configure it so that it is input through. With this configuration, when the voices of one's own and other speakers are input to the voice input unit in real time through a microphone, the data of the speaker and his / her remark can be obtained immediately after the discussion is completed. Once the voice data is recorded in the recording unit, the data of the speaker and his / her remark can be obtained at any time through the recording unit. Further, the speech separation system according to the present invention is configured such that the voice of a speaker group composed of a plurality of speakers is input to each voice input unit, and the speaker group and the speech of the speaker group are cut out. Is preferable. With such a configuration, it is possible to obtain the speaker group and the speech data for each speaker group instead of each speaker.
また、本発明に係る発言切り分けシステムは、発言区間検知部には、入力される音声データが一定間隔毎に区切られた音声フレームとして入力されるとともに、音声フレームを、未検知または検知中の何れかの状態として検知し、初期状態を未検知とし、検知状態が未検知で発言の開始を検知すると検知状態を検知中に変更する発言開始検知部と、検知状態が検知中の間、検知音声蓄積部へ音声データの蓄積を行い、発言の終了を検知すると検知音声蓄積部に蓄積された音声データを出力あるいは削除し、検知状態を未検知に変更する発言終了検知部とを有することが好ましい。係る構成とすることにより、正確に発言区間の音声データを入手することができる。さらに、本発明に係る発言切り分けシステムは、音声入力部には、自他の音声とノイズが混在して入力され、発言区間検知部に入力される音声フレームについて、この音声フレームを、発言開始直後または発言終了直前のうち少なくともいずれか一方で、音声エネルギの大小を予め求められた音声エネルギの閾値に基づいて、人の音声か音声以外の雑音か否かを判別する発言判別部を有し、音声以外の雑音と判別された音声データに基づいて特定された発言区間検知部の検知音声蓄積部に蓄積され雑音と判別された音声データを削除することが好ましい。係る構成とすることにより、音声以外の雑音を音声データから取り除くことができ、人の音声のみを確実に取り込むこことができる。そして、音声エネルギの閾値を会場や端末の条件により変更して適用することができ、精度の向上を図ることができる。また、本発明に係る発言切り分けシステムは、類似度判別部により判別された同一話者の音声データについて、予め求められた音声の時間の長さの閾値に基づいて音声の時間が所定の長さを有するか否かを判別する音声長さ判別部を有し、所定時間長さを有する場合、音声エネルギ判別部で音声エネルギの大小を比較判別し、所定時間長さを有していない場合、蓄積された音声データを検知音声蓄積部から削除することが好ましい。係る構成とすることにより、話者の発声のうち、咳払いや舌打ち等意味のない発声を音声データから除き、思考に基づいてある程度の長さで発話される意味のある発言のみを音声データとして取り込むことができ、無駄な発声を取り除くことができる。また、音声データの欠損をなくすことができる。さらに、本発明に係る発言切り分けシステムは、検知音声蓄積部に蓄積された音声データに対し、蓄積された音声データ間の時間のずれを求め、この求められた時間的ずれを用いて音声データの時間ずれを補正する時間ずれ補正部を有するようにすることが好ましい。係る構成とすることにより、本来の音声を欠けることなく確実に音声データとして取り込むことができる。また、本発明に係る発言切り分けシステムは、発言区間検知部の検知音声蓄積部を通じて特定された話者とその音声データが出力されると、特定された話者とその音声データを、文字データ、文字データを翻訳した翻訳データまたは音声のうち少なくともいずれか1として表示または出力する表示出力部を有するようにすることが好ましい。係る構成とすることにより、会議や通話記録終了後、直ちに会議録や音声記録を入手することができる。さらに、本発明に係る発言切り分けシステムは、マイクは、同一の場所に集まった話者、コールセンターの通話者または会話をインカムを通じて行う会話者の何れかに装着されることが好ましい。係る構成とすることにより、多様な用途に利用することができる。 Further, in the speech separation system according to the present invention, the input voice data is input to the speech section detection unit as a voice frame divided at regular intervals, and the voice frame is either undetected or detected. A speech start detection unit that detects this state, makes the initial state undetected, and changes the detection status to during detection when the detection status is undetected and detects the start of speech, and the detection voice storage unit while the detection status is being detected. It is preferable to have a speech end detection unit that accumulates voice data and outputs or deletes the voice data stored in the detection voice storage unit when the end of speech is detected, and changes the detection state to undetected. With such a configuration, it is possible to accurately obtain the voice data of the speech section. Further, in the speech separation system according to the present invention, the voice input unit is input with a mixture of own and other voices and noise, and the voice frame input to the speech section detection unit is immediately after the start of speech. Alternatively, it has a speech discriminating unit that determines whether the voice energy is human voice or non-voice noise based on a voice energy threshold obtained in advance for the magnitude of voice energy at least one of immediately before the end of speech. It is preferable to delete the voice data accumulated in the detection voice storage unit of the speech section detection unit specified based on the voice data determined to be noise other than voice and determined to be noise. With such a configuration, noise other than voice can be removed from the voice data, and only human voice can be reliably captured. Then, the threshold value of the voice energy can be changed and applied depending on the conditions of the venue and the terminal, and the accuracy can be improved. Further, in the speech separation system according to the present invention, for the voice data of the same speaker determined by the similarity determination unit, the voice time is a predetermined length based on the threshold value of the voice time length obtained in advance. If it has a voice length discriminating unit that determines whether or not it has a predetermined time length, and if it has a predetermined time length, the voice energy discriminating unit compares and discriminates the magnitude of the voice energy, and if it does not have a predetermined time length. It is preferable to delete the stored voice data from the detection voice storage unit. With this configuration, meaningless utterances such as throat clearing and tongue slap are excluded from the voice data, and only meaningful utterances that are uttered for a certain length based on thought are captured as voice data. You can get rid of unnecessary vocalizations. In addition, it is possible to eliminate the loss of voice data. Further, the speech isolation system according to the present invention obtains a time lag between the stored voice data for the voice data stored in the detected voice storage unit, and uses the obtained time lag to obtain the voice data. It is preferable to have a time lag correction unit for correcting the time lag. With such a configuration, it is possible to reliably capture the original voice as voice data without missing it. Further, in the speech separation system according to the present invention, when the specified speaker and its voice data are output through the detection voice storage unit of the speech section detection unit, the specified speaker and its voice data are converted into character data. It is preferable to have a display output unit that displays or outputs as at least one of translated data or voice obtained by translating character data. With such a configuration, the minutes and voice recording can be obtained immediately after the end of the conference or call recording. Further, in the speech isolation system according to the present invention, it is preferable that the microphone is attached to either a speaker gathered at the same place, a call center speaker, or a speaker who conducts a conversation through an income. With such a configuration, it can be used for various purposes.
本発明の請求項13に係る発言切り分け方法は、複数の話者の音声が混在して取得されて入力される音声データに基づいて、発言を切り出す発言切り分け方法であって、自己の音声と他者の音声が混在して入力される話者毎の音声入力部を備え、これら音声入力部毎に取得され混在する複数の音声データを、各音声データの開始から終了までの発言区間毎に検知して自己の音声入力部から入力された自己の音声データを蓄積する第1のステップと、各音声入力部から取得された話者毎の蓄積された音声データを同期させて参照し、取得した話者毎の音声データの類似度を算出して類似度の高低を比較判別し、類似度が低い音声データは異なる話者の音声データとみなし、類似度が高い音声データは同一話者の音声データとみなす第2のステップと、これら類似度が高い話者が同一とみなされた音声データについて音声エネルギの大小を比較判別し、音声エネルギが相対的に大きいと判別された音声データを、自己の音声入力部から入力された自己の発言と特定し、自他の発言を切り分ける第3のステップとを有することを特徴とするものである。 The remark separation method according to claim 13 of the present invention is a remark separation method for cutting out remarks based on voice data obtained and input by a mixture of voices of a plurality of speakers, such as own voice and others. It is equipped with a voice input unit for each speaker in which the voices of people are mixed and input, and multiple voice data acquired and mixed for each voice input unit are detected for each speech section from the start to the end of each voice data. Then, the first step of accumulating the own voice data input from the own voice input unit and the accumulated voice data for each speaker acquired from each voice input unit are synchronized, referred to, and acquired. The similarity of the voice data for each speaker is calculated and the high and low of the similarity are compared and discriminated. The voice data with a low degree of similarity is regarded as the voice data of different speakers, and the voice data with a high degree of similarity is the voice of the same speaker. The second step, which is regarded as data, and the voice data which are considered to be the same by the speakers with high similarity are compared and discriminated by the magnitude of the voice energy, and the voice data determined to have a relatively large voice energy is self-determined. It is characterized by having a third step of identifying oneself's remarks input from the voice input unit of the above and separating one's own remarks and other remarks.
本発明の請求項13に係る発言切り分け方法では、複数の話者の音声が混在して取得されて入力される音声データに基づいて、発言を切り出す発言切り分け方法であって、自己の音声と他者の音声が混在して入力される話者毎の音声入力部を備え、これら音声入力部毎に取得され混在する複数の音声データを、各音声データの開始から終了までの発言区間毎に検知して自己の音声入力部から入力された自己の音声データを蓄積する第1のステップと、各音声入力部から取得された話者毎の蓄積された音声データを同期させて参照し、取得した話者毎の音声データの類似度を算出して類似度の高低を比較判別し、類似度が低い音声データは異なる話者の音声データとみなし、類似度が高い音声データは同一話者の音声データとみなす第2のステップと、これら類似度が高い話者が同一とみなされた音声データについて音声エネルギの大小を比較判別し、音声エネルギが相対的に大きいと判別された音声データを、自己の音声入力部から入力された自己の発言と特定し、自他の発言を切り分ける第3のステップとを有するようにしたことにより、話者の発言内容を迅速かつ正確に重複することなく切り出すことができる。 The remark separation method according to claim 13 of the present invention is a remark separation method for cutting out remarks based on voice data obtained and input by a mixture of voices of a plurality of speakers, such as own voice and others. It is equipped with a voice input unit for each speaker in which the voices of people are mixed and input, and multiple voice data acquired and mixed for each voice input unit are detected for each speech section from the start to the end of each voice data. Then, the first step of accumulating the own voice data input from the own voice input unit and the accumulated voice data for each speaker acquired from each voice input unit are synchronized, referred to, and acquired. The similarity of the voice data for each speaker is calculated and the high and low of the similarity are compared and discriminated. The voice data with a low degree of similarity is regarded as the voice data of different speakers, and the voice data with a high degree of similarity is the voice of the same speaker. The second step, which is regarded as data, and the voice data which are considered to be the same by the speakers with high similarity are compared and discriminated by the magnitude of the voice energy, and the voice data determined to have a relatively large voice energy is self-determined. By identifying it as one's own remarks input from the voice input unit of the speaker and having a third step of separating one's own remarks and other remarks, the content of the speaker's remarks can be cut out quickly and accurately without duplication. Can be done.
また、本発明の発言切り分け方法は、自己の発言と特定された音声入力部に基づいて、話者とその発言を特定することが好ましい。係る構成とすることにより、話者の発言を、発言内容と話者とを特定して切り出すことができる。さらに、本発明に係る発言切り分け方法は、特定された話者とその音声データを、文字データ、文字データを翻訳した翻訳データまたは音声のうち少なくともいずれか1として表示または出力することが好ましい。係る構成とすることにより、会議や通話記録終了後、直ちに会議録や音声記録を入手することができる。 Further, in the speech isolation method of the present invention, it is preferable to identify the speaker and the speech based on the voice input unit identified as the speaker's speech. With such a configuration, the speaker's remark can be cut out by identifying the remark content and the speaker. Further, in the speech isolation method according to the present invention, it is preferable to display or output the specified speaker and its voice data as at least one of character data, translated data obtained by translating the character data, or voice. With such a configuration, the minutes and voice recording can be obtained immediately after the end of the conference or call recording.
本発明の請求項1に係る発言切り分けシステムでは、複数の話者の音声が混在して取得されて入力される音声データに基づいて、発言を切り出す発言切り分けシステムであって、自己の音声と他者の音声が混在して入力される話者毎の音声入力部を備え、これら音声入力部毎に取得され混在する複数の音声データを、各音声データの開始から終了までの発言区間毎に検知して自己の音声入力部から入力された自己の音声データを蓄積し、各音声入力部から取得された話者毎の蓄積された音声データを同期させて参照し、取得した話者毎の音声データの類似度を算出して類似度の高低を比較判別し、類似度が低い音声データは異なる話者の音声データとみなし、類似度が高い音声データは同一話者の音声データとみなし、これら類似度が高い話者が同一とみなされた音声データについて音声エネルギの大小を比較判別し、音声エネルギが相対的に大きいと判別された音声データを、自己の音声入力部から入力された自己の発言と特定し、自他の発言を切り分けるようにしたことにより、類似度と音量を用いるだけの簡素な構成で、同一空間に複数の話者が存在する会議やコールセンター、インカム通話などの場やオンライン会議等の場において、複数の話者の音声を重複することなくそれぞれの発言を正確に特定して切り出すことができるので、正確な会議録や通話記録を得ることができる。
The remark separation system according to
また、本発明の請求項3に係る発言切り分けシステムでは、複数の話者の音声が混在して取得されて入力される音声データに基づいて、発言を切り出す発言切り分けシステムであって、自己の音声と他者の音声が混在して入力される話者毎の音声入力部と、各音声入力部毎に設けられ、自己の音声入力部から取得され混在する複数の音声データから自己の音声データの発言開始から発言終了までの発言区間を検知する発言区間検知部と、発言区間検知部毎にそれぞれ設けられ、検知された自己の発言区間の音声データを蓄積する検知音声蓄積部と、各発言区間検知部とその検知音声蓄積部とを同期させて参照し、各発言区間検知部の検知音声蓄積部に蓄積された音声データについて、類似度を算出して類似度の高低を比較判別し、類似度が低い音声データは異なる話者の音声データとみなし、類似度が高い音声データは複数の音声入力部から取得された同一話者の音声データとみなす類似度判別部と、類似度判別部により判別された同一話者の音声データについて、音声データ毎に音声エネルギを算出して音声エネルギの大小を比較判別し、音声エネルギが相対的に高いと判別された音声データが取得された発言区間検知部を特定する音声エネルギ判別部とを有し、特定された発言区間検知部とその検知音声蓄積部に蓄積された音声データに基づいて、話者とその発言を切り出すようにしたことにより、複数の話者の発言に対して、類似度と音声エネルギとをそれぞれ比較判別して容易かつ確実に話者とその話者が発言した音声データを重複することなく特定することができ、より精密な会議録や通話記録を得ることができる。
Further, the speech separation system according to
さらに、本発明の請求項13に係る発言切り分け方法では、複数の話者の音声が混在して取得されて入力される音声データに基づいて、発言を切り出す発言切り分け方法であって、自己の音声と他者の音声が混在して入力される話者毎の音声入力部を備え、これら音声入力部毎に取得され混在する複数の音声データを、各音声データの開始から終了までの発言区間毎に検知して自己の音声入力部から入力された自己の音声データを蓄積する第1のステップと、各音声入力部から取得された話者毎の蓄積された音声データを同期させて参照し、取得した話者毎の音声データの類似度を算出して類似度の高低を比較判別し、類似度が低い音声データは異なる話者の音声データとみなし、類似度が高い音声データは同一話者の音声データとみなす第2のステップと、これら類似度が高い話者が同一とみなされた音声データについて音声エネルギの大小を比較判別し、音声エネルギが相対的に大きいと判別された音声データを、自己の音声入力部から入力された自己の発言と特定し、自他の発言を切り分ける第3のステップとを有するようにしたことにより、類似度と音量を用いるだけの簡素な構成で、同一空間に複数の話者が存在する会議やコールセンター、インカム通話などの場やオンライン会議等の場において、複数の話者の音声を重複することなくそれぞれの発言を正確に特定して切り出すことができるので、正確な会議録や通話記録を得ることができる。 Further, the remark separation method according to claim 13 of the present invention is a remark separation method for cutting out remarks based on voice data obtained and input by a mixture of voices of a plurality of speakers, and is a self-voice. It is equipped with a voice input unit for each speaker in which voices of other people are mixed and input, and a plurality of voice data acquired and mixed for each voice input unit can be input for each speech section from the start to the end of each voice data. The first step of accumulating the self-voice data input from the self-voice input unit by detecting the data is synchronized with the accumulated voice data of each speaker acquired from each voice input unit for reference. The similarity of the acquired voice data for each speaker is calculated and the high and low of the similarity are compared and discriminated. The voice data with a low degree of similarity is regarded as the voice data of different speakers, and the voice data with a high degree of similarity is the same speaker. The second step, which is regarded as the voice data of the above, and the voice data which are considered to be the same by the speakers having a high degree of similarity are compared and discriminated by the magnitude of the voice energy, and the voice data determined to have a relatively large voice energy is used. , By identifying it as its own remark input from its own voice input unit and having a third step of separating self and other remarks, it is the same with a simple configuration that only uses similarity and volume. In a conference or call center where multiple speakers exist in the space, in a place such as an income call, or in an online conference, it is possible to accurately identify and cut out each statement without duplicating the voices of multiple speakers. Therefore, accurate conference records and call records can be obtained.
以下、図面に示す一実施形態により本発明を説明する。本発明の一実施形態に係る発言切り分けシステム2は、図1ないし図3の(A)に示すように、同一空間内において自己の音声と他者の音声が混在して入力される話者毎のマイク(音声入力部)M1~Mnを備え、これらマイクM1~Mn毎に取得され混在する複数の音声データを、各音声データの開始から終了までの発言区間毎に検知して自己のマイクM1~Mnから入力された自己の音声データを蓄積し、各マイクM1~Mnから取得された話者毎の蓄積された音声データを同期させて参照し、取得した話者毎の音声データの類似度を算出して類似度の高低を比較判別し、類似度が低い音声データは異なる話者の音声データとみなし、類似度が高い音声データは話者の同一の音声データとみなし、これら類似度が高い話者が同一とみなされた音声データについて音声エネルギの大小を比較判別し、音声エネルギが相対的に大きいと判別された音声データを、自己のマイクMxから入力された自己の発言と特定し、自他の発言を切り分けるようにしたものである。つまり、発言者を特定せず発言のみ重複することなく切り分けるようにしたものである。また、本実施形態に係る発言切り分けシステム2は、自己の発言と特定されたマイクMxに基づいて、そのマイクMxから取得され蓄積された音声データをマイクMxの話者と関連付けするようにしたものである。
Hereinafter, the present invention will be described with reference to one embodiment shown in the drawings. As shown in (A) of FIGS. 1 to 3, the
本実施形態に係る発言切り分けシステム2は、図1に示すように、会議などの参加者(話者)A~N(Nは2以上の任意の整数)毎に装着されたマイクM1~Mnからの音声を、切り分けて出力することができるだけでなく、話者とその発言を特定して、切り分け出力するシステムである。この発言切り分けシステム2は、図2に示すように、同一空間内で行われる会議などの参加者(話者)A~N(Nは2以上の任意の整数)毎にマイクM1~Mnが装着されるか、話者A~Nの近傍に配置される(図3の(A)参照)。つまり、話者Aを自己とすると(自己AのマイクM1)、自己のマイクM1以外の他の話者のマイクM2~Mnより最も近い距離に配置されるのが、自己のマイクM1となるように配置される。マイクM1~Mnは、装着された話者A~N毎に対応して関連付けされる。これらマイクM1~Mnは、話者A~Nと関連付けされてハードウェア(ハードディスク、情報処理部、記憶部)、コンピュータあるいはクラウドコンピュータ3に音声データを入力可能に接続される。本実施例では、情報処理部(CPU)と記憶部と入出力部と表示部とを有するコンピュータ(PC)3を例に説明する。PC3には、後述する動作を行うソフトウェアが収納される。
As shown in FIG. 1, the
本実施形態に係る発言切り分けシステム2は、各マイクM1~Mn毎の音声データが入力される発言区間検知部4(4:M1、4:M2・・・4:Mn)と、発言区間検知部4毎に設けられ発言区間検知部4で検知された発言区間の音声データを蓄積する検知音声蓄積部5(5:M1、5:M2・・・5:Mn)と、類似度判別部6と、音声エネルギ判別部7と、音声長さ判別部8と、蓄積音声出力部9と、発言判別部(ノイズ判別部)10と、発言開始検知部11と、発言終了検知部12と、時間ずれ補正部13とを有して構成される。
The
発言区間検知部4は、図4に示すように、各マイクM1~Mn毎に互いに同期して設けられ、対応するマイクから取得され混在する複数の音声データの発言開始から発言終了までのそれぞれの発言区間を検知するようになっている。すなわち、発言区間検知部4は、発言判別部10と発言開始検知部11と発言終了検知部12とにより発言区間を検知するようになっている(図2参照)。発言区間検知部4は、入力される音声データを短時間の一定間隔毎に区切られた音声フレーム(本実施形態では、例えば、30msec分の音声データ)として入力する。発言判別部10は、発言区間検知部4に入力された音声フレームを、発言開始直後または発言終了直前のうち少なくともいずれか一方で、音声エネルギの大小を予め求められた音声エネルギの第1の閾値THR1または第2の閾値THR2に基づいて、人の音声か音声以外の雑音か否かを判別するようになっている。また、発言判別部10で音声以外の雑音と判別された音声データは、情報処理部により削除されるようになっている。発言開始検知部11は、音声フレームを、未検知または検知中の何れかの状態として検知し、初期状態を未検知とし、検知状態が未検知で発言の開始を検知すると検知状態を検知中に変更するようになっている。発言終了検知部は12は、検知状態が検知中の間、検知音声蓄積部5へ音声データの蓄積を行い、発言の終了を検知すると検知音声蓄積部5に蓄積された音声データを出力あるいは削除し、検知状態を未検知に変更するようになっている。つまり、発言開始検知部11は、図5に示すように、関連付けされた単一のマイクMxから取得される、他の話者の音声データが混在する複数の音声データが入力されると(ステップS1)、音声フレーム毎に情報処理部により音声エネルギを算出し(本実施形態では、例えば、音声の二乗平均平方根(RMS)を用いている)(ステップS2)、算出された値を、発言判別部10により予め設定された音声エネルギの第1の閾値THR1と比較判別し(ステップS3)、この第1の閾値THR1以上の場合、音声データの検知状態Sを「検知中」に変更する(ステップS4)。第1の閾値THR1未満の場合、このマイクMxから拾った聞き取りにくい音声エネルギの低い音声データとみなし、検知状態Sを「未検知」のままとし処理を終了する(ステップS5)。つまり、検知状態Sを参照し、「未検知」であれば入力された音声フレームを解析し、人の音声であると判別すると検知状態を「検知中」に変更するようになっている。なお、本実施形態では、音声フレームを、30msec分の音声データとしているがこれに限られるものではなく、状況や環境あるいは用途に応じて適宜変更可能であることは言うまでもない。また、本実施形態では、音声エネルギの算出に当たり、システム負荷が軽い音声の二重平均平方根(RMS)を用いているがこれに限られるものではなく、他の算出方法を用いてもよい。
As shown in FIG. 4, the speech
発言判別部10は、発言開始検知部11が音声フレームを検知し、音声データの蓄積が始まると、つまり、発言開始直後に音声フレームの音声エネルギの大小を、予め求められた音声エネルギの第1の閾値THR1に基づいて、人の音声か音声以外の雑音か否かを判別するようになっている(図5のステップS2~ステップSS5参照)。また、発言判別部10は、発言終了検知部12が音声フレームを検知すると、その音声フレームの音声エネルギの大小を、予め求められた音声エネルギの第2の閾値THR2に基づいて、人の音声か音声以外の雑音か否かを判別するようになっている(図6のステップS15~ステップS16参照)。すなわち、ステップS14で、類似度の結果がTrueである場合、音声エネルギを算出し、算出された値を音声エネルギの第2の閾値THR2と比較判別し(ステップS16)、第2の閾値THR2未満の場合、発言終了とみなし、音声長さ判別部8に検知音声蓄積部5の音声データを出力する(ステップS17参照)。第2の閾値THR未満の場合、終了処理は行わず、次の音声フレームの入力を待つ。なお、第2の閾値THR2は、会場やマイクの条件に応じて、第1の閾値THRと同一であってもよいし、異ならせてもよい。
In the
このように、上記実施形態に係る話者とその発言切り分けシステム2では、図9に示すように、話者A~Nそれぞれに装着したマイクM1~Mnから音声データを取得する。取得した複数の音声データをそれぞれ発言区間検知部4に入力すると、発言区間ごとに分離された音声が出力される。従って、発言区間検知部4は録音に使用するマイクの数だけ必要となる。発言区間検知部4は、図4のような構造となっている。発言区間検知部4には、マイクM1~Mnから取得された音声データが入力される。音声データは一定間隔で区切られた音声フレームであり、音声フレームが入力されるたびに発言区間検知部4が処理を行う。発言区間検知部4は常に検知状態Sを保持している。検知状態Sは 「未検知」と「検知中」のいずれかの状態を示し、初期状態は「未検知」である。また、検知状態Sは自身の、あるいは同時に動作している他の発言区間検知部4から参照される。音声を解析する音声解析部10、11、12、6、7、13では、入力が発言であるかどうかを判断する。音声解析部10、11、12、6、7、13は検知状態Sによって動作が異なり、検知状態が「未検知」であれば発言開始、「検知中」であれば発言終了を検知するための解析を行う。
As described above, in the speaker and the
発言開始検知部11および発言終了検知部12はそれぞれ、図5および図6のように動作する。発言開始検知部11では、入力の音声エネルギを算出し、この音声エネルギを予め設定していた閾値(第1の閾値THR1)と比較する。比較の結果が第1の閾値THR1以上であれば検知状態を「検知中」に変更し、次の音声フレームの入力に対して処理を行う。終了検知処理では、開始検知処理で行った音声エネルギの比較、検知状態の変更に加え、検知音声蓄積部5の入出力処理と、他の話者の発言が含まれているかどうかを判断するための類似度の算出処理が行われる。終了検知処理では、はじめに音声フレームを検知音声蓄積部5に格納する。次に、類似度の算出を行い、類似度の結果がTrueでなかった場合、つまり、音声が同一のものでないと判断された場合、、検知状態Sを「未検知」に変更後、次の入力の処理を行う。類似度の結果がTrueである場合は、音声エネルギの判定を行う。音声エネルギが発言判別部10の第2の閾値THR2を上回っている場合は次の音声フレームの処理を実行するが、下回っている場合は、発言が終了したとみなし、検知音声蓄積部5に格納されている音声データを音声長さ判別部8に出力し、検知状態を「未検知」に戻す。
The speech
類似度判別部6では、他の発言区間検知部4の検知音声蓄積部5に格納されている音声データに同一音声が含まれていないかを確認する。同期させて発言区間検知部4の数だけ処理が必要なため、内部はループ構造を有している(ステップS32参照)。同一の音声データの確認にあたって、まず他の発言区間検知部4の検知状態Sを参照する(ステップS33参照)。対象となる発言区間検知部4の検知状態Sが「未検知」の場合はTrueを出力し、他の発言区間検知部4の確認に移る。一方で、「検知中」であれば検知音声蓄積部5に同一音声が含まれている可能性があるため、自身の発言区間検知部4(Mx)と対象の発言区間検知部4[(M1~Mn)-Mx]の検知音声蓄積部5に格納されている音声データの類似度を算出する(ステップS35参照、本実施形態では、例えば、ピアソンの積率相関係数Cを類似度として算出する)。類似度が予め設定した第2の閾値THR2を下回る場合、この音声は同一のものではないと判断され(ステップS36参照)、Trueを出力して他の発言区間検知部4の確認に移る。第2の閾値THR2を上回る場合は音声が同一であるため、検知音声蓄積部5の音声のエネルギを算出し(ステップS37参照)、自身の音声エネルギが大きい場合は、Trueを出力する(ステップS38、S39参照)。
The
以上の処理を他の発言区間検知部4すべてに対して実行することで、他の発言区間検知部4の数だけ確認結果が得られる。確認結果がすべてTrueになっていれば、自身の音声は独立した発言であるため、Trueを出力し、発言終了検知部12で適切な処理が行われる。その結果、同一音声に対しては、「検知中」の状態を持つ発言区間検知部4が常に一つとなり、音声の重複を防ぐことができる。このようにして発言区間検知部4は動作するが、各発言区間検知部4は同期的に動作する必要がある。具体的には、ある時刻に対するすべての音声フレームの処理が各発言区間検知部で終了するまで、次の音声は入力しないようにしている。そうしなければ、検知状態に時間的なずれが生じるため、同一音声の検知ができなくなるからである。
By executing the above processing for all the other speech
類似度判別部6は、各発言区間検知部4とその検知音声蓄積部5とを同期させて参照し、各発言区間検知部4に入力される音声データと各マイクの検知音声蓄積部5に格納された発言区間の音声データについて、類似度を算出して類似度の高低を比較判別し、類似度が低い音声データは異なる話者の音声データとみなして判別する対象から除き(図11の(B)参照)、類似度が高い音声データは複数のマイク(例えば、マイクM1~M3)から取得された同一の音声データとみなし、これら複数のマイクの同一の音声データを判別しこれら判別された同一の音声データを有する発言区間検知部4(4:M1、4:M2、4:M3)を特定するようになっている(図11の(A)参照)。
The
つまり、類似度判別部6は、各発言区間検知部4(4:M1~4:Mn)とその検知音声蓄積部5(5:M1~5:Mn)とを同期させて参照するようになっている。この類似度判別部6は、各マイクM1~Mnに対応する各発言区間検知部4(4:M1~4:Mn)の検知音声蓄積部5にそれぞれ格納された発言区間の音声データについて、特定のマイクMx(自己のマイクM1)に対応する発言区間検知部4(4:Mx)の検知音声蓄積部5に蓄積された音声データと、それ以外の他のマイク[(M1~Mn)-Mx]に対応する発言区間検知部4[(4:M1~4:Mn)―(4:Mx)]の検知音声蓄積部5に蓄積された音声データとの類似度をそれぞれ算出し、特定(自己)の検知音声蓄積部5から取得した音声データに対して他の音声データとの類似度の高低を比較判別し、類似度が低い音声データは異なる話者の音声データとみなして判別する対象から除き、類似度が高い音声データは複数のマイクから取得された同一の音声データとみなし、これら複数のマイクの同一の音声データVidM1、VidM2、VidM3(図14参照)を判別して特定するようになっている。
That is, the
言い換えれば、類似度判別部6は、各音声蓄積部5に蓄積された発言区間の音声データ(例えば、VidM1、VidM2、VidM3、・・・)について、各検知音声蓄積部5(5:M1~5:Mn)と各発言区間検知部4(4:M1~4:Mn)を同期させて参照し、情報処理部により類似度を算出し(図6のステップS13)、特定(自己)の発言区間検知部4(4:M1)について、類似度の結果がTrueかどうか判別する(ステップS14)。類似度の結果がTrueでない場合、つまり、音声データが同一のものであると判断された場合、音声長さ判別部8に音声データを出力し(ステップS17)、音声データの長さが予め設定された長さより長いかどうか判別するようになっている。類似度の結果がTrueである場合、発言判別部10に音声データを出力するようになっている(ステップS15参照)。
In other words, the
音声エネルギ判別部7は、類似度判別部6により判別され特定された同一の音声データVidM1、VidM2、VidM3について、蓄積された音声データの音声エネルギを算出して音声エネルギの大小を比較判別し、音声エネルギが低い場合(例えば、同一の音声データVidM1、VidM2、VidM3のうちVidM2、VidM3)、話者B、CのマイクM2、M3から取得された自己の音声データとみなし、音声エネルギが相対的に最も高いと判別された音声データ(例えば、音声データVidM1)を特定される対象とみなし、音声が取得されたマイクM1を特定し、そのマイクM1から取得され蓄積された音声データをマイクM1の話者Aと関連付けして特定し、蓄積音声出力部9により外部に出力するようになっている。音声エネルギが相対的に最も高いか否かは算出された値を比較して判別される。なお、本実施形態に係る発言切り分けシステム2では、話者とその発言(音声データ)を紐付けして話者と発言とを特定するようにしているがこれに限られるものではなく、話者を特定せず、異なる発言者の発言のみを切り出すようにしてもよいことは言うまでもない。
The voice
音声長さ判別部8は、音声データが予め設定された所定の長さ(本実施形態の場合、1秒未満で、好ましくは0.5秒に設定)を有しているかどうかを判別し、話者の発声のうち、咳払いや舌打ち等意味のない発声を音声データから除き、思考に基づいてある程度の長さで発話される意味のある発言のみを音声データとして取り込むようにしている。
The voice
音声長さ判別部8は、ステップS16で、発言判別部10から第2の閾値THR2未満の音声データが入力されるか、ステップS14で類似度の結果がTrueでない場合、つまり、音声データが同一のものであると判断された場合、音声データが設定された一定の長さを有するかどうか判別し、一定の長さを有していれば、自己(特定)の音声データとして検知音声蓄積部5から蓄積された音声データを出力し(ステップS18)、次に、その音声データを削除し(ステップS19)、検知状態Sを「未検知」に変更後(ステップS20)、次の入力処理を行う。一定の長さを有していない場合、自己(特定)の検知音声蓄積部5から蓄積された音声データを削除し(ステップS19)、検知状態Sを「未検知」に変更する(ステップS20)。
In step S16, the voice
類似度判別部6は、各検知音声蓄積部5を参照して(ステップS31)、動作中の発言区間検知部4の数(例えば、VidM1、VidM2、VidM3であれば3回)をループし(ステップS32)、動作中の各発言区間検知部Dn(Dn=5:M1~5:Mn)から検知状態S(S-1、S-2、S-3)を取得し(ステップS33)、検知状態Sが「検知中」か否かを判別し(ステップS34)、「検知中」であれば、自己(特定)の検知音声蓄積部5(5:M1)と他の検知音声蓄積部5(5:M2、5:M3)とにそれぞれ格納されている音声データから音声の類似度(本実施形態では、積率相関係数C)を算出し(ステップS35)、この類似度が予め設定された第3の閾値THR3より大きいか小さいかを判別する(ステップS36)。
The
音声エネルギ判別部7は、図7に示すように、音声データVidM1、VidM2、VidM3の類似度が第3の閾値THR3より大きい場合、自己(特定)の検知音声蓄積部5(5:M1)と他の検知音声蓄積部5(5:M2、5:M3)とにそれぞれ格納されている音声データの音声エネルギE_s(E_s:VidM1)、E_Dn(E_d:VidM2、E_d:VidM3)を算出する(ステップS37)。そして、これら算出された音声エネルギE_s(E_s:VidM1)、E_Dn(E_d:VidM2、E_d:VidM3)の大小を判別し(ステップS38)、算出された数値が最も大きい音声エネルギをTrueとして出力する(ステップS39)。このステップS39で音声エネルギE_s(E_s:VidM1)が、最も高いものがTrueとして出力されると、話者A(マイクM1)が特定され、その発言区間の音声データVidM1が関連付けされて出力されるようになっている。このステップS39で、例えば、音声エネルギE_Dn(E_d:VidM2)が最も大きければ、話者Bとその発言区間の音声データが、音声エネルギE_Dn(E_d:VidM3)が最も大きければ、話者Cとその発言区間の音声データが、それぞれ特定される。こうして、同一の音声に対しては、「検知中」の状態を持つ発言区間検知部4が常に一つとなるため、音声の重複を防いで話者とその発言区間の音声データを特定することができる。
As shown in FIG. 7, when the similarity of the voice data VidM1, VidM2, and VidM3 is larger than the third threshold value THR3, the voice
なお、ステップS34で、検知状態Sが「未検知」であれば、該当する検知音声蓄積部5の音声データは自己の音声データを優先し、蓄積され続ける。また,ステップS36で、「検知中」の自己と他の検知音声蓄積部5に蓄積された音声データの類似度が第3の閾値THR3より小さい場合、該当する検知音声蓄積部5の音声データは蓄積され続ける。
If the detection state S is "not detected" in step S34, the voice data of the corresponding detection
また、本実施形態に係る発言切り分けシステム2は、時間ずれ補正部13を有している。時間ずれ補正部13は、検知音声蓄積部5に蓄積された音声データについて、発言判別部10により音声エネルギの第1の閾値THR1に基づいて音声エネルギを算出する際、音声データ間の時間のずれを求め、この求められた時間的ずれを用いて音声データの時間ずれを補正するようになっている。つまり、時間ずれ補正部13は、類似している音声のみを抽出し、発話の音声エネルギを算出する際、相互相関関数を用い、音声間がずれている時間を求めるようにしている。つまり、相互相関関数が最大値をとるとき、音声間がずれている時間が得られる。その時間を用いて元の音声を切り出すことができるようになっている。図8の(A)、(B)はそれぞれ、マイク毎の発言区間検知部4の検知音声蓄積部5に蓄積される音声データのイメージを示す説明図およびその音声データのイメージに対して相互相関関数により類似している音声のみを抽出したイメージを示す説明図である。
Further, the
すなわち、時間ずれは、次のようにして生じる。話者特定を現実に使用すると、話者同士の発言に区切りがなく連続して会話が行われる場合がある。例として、話者Aの発言の直後に話者Bの発言があった場合を想定し、それぞれの発言を自己の発言区間検知部4:Aと他の発言区間検知部4:Bで検知する場合を想定する。このとき、話者Bの発言は発言区間検知部4:Aでも取得されており、そのエネルギが閾値(第1の閾値THR1)を超えているとする。まず、話者Aの発言が発言区間検知部4:Aの検知音声蓄積部5:Aに蓄積される。続けて話者Bの発言が開始されると、自己(A)と他(B)の発言区間検知部4:A、4:B両方で音声エネルギが閾値(第1の閾値THR1)を超えているため、類似度の算出が行われる。このとき、類似度算出に用いられる音声データは自他それぞれの発言区間検知部4:A、4:Bの検知音声蓄積部5:A、5:Bに蓄積された音声であるため、発言区間検知部4:Aでは、話者Aの発言と話者Bの発言とが含まれることなる。 That is, the time lag occurs as follows. When speaker identification is actually used, conversations may occur continuously without breaks between speakers. As an example, assuming that the speaker B makes a statement immediately after the speaker A makes a statement, each statement is detected by the own speech section detection unit 4: A and another speech section detection unit 4: B. Imagine a case. At this time, it is assumed that the speech of the speaker B is also acquired by the speech section detection unit 4: A, and the energy thereof exceeds the threshold value (first threshold value THR1). First, the remarks of the speaker A are stored in the detection voice storage unit 5: A of the speech section detection unit 4: A. When the speaker B starts speaking continuously, the voice energy exceeds the threshold value (first threshold value THR1) in both the self (A) and other (B) speech section detection units 4: A and 4: B. Therefore, the similarity is calculated. At this time, since the voice data used for calculating the similarity is the voice accumulated in the detection voice storage units 5: A and 5: B of the self and other speech section detection units 4: A and 4: B, the speech section The detection unit 4: A includes the remarks of the speaker A and the remarks of the speaker B.
図8の(A)は、各発言区間検知部4:A、4:Bの検知音声蓄積部5:A、5:Bの音声データのイメージを示している。薄い部分で表示しているのが、話者AのマイクM1の発言区間検知部4:A、濃い部分で表示しているのが話者BのマイクM2の発言区間検知部4:Bの音声データを示している。類似度の算出においては話者Bの発言が両方に含まれているため、類似していると判断されるが、エネルギ算出時に問題が生じる。エネルギ算出に使われる音声データも各検知音声蓄積部5:A、5:Bの音声を用いるため、話者Aの発言の音声エネルギが大きかった場合、その影響を受けて話者Aの発言の音声エネルギが大きいと判断されることがある。結果、類似度の判定は正しく動作するが、より音声エネルギの大きい話者Aの発言が優先され、話者Bの発言が話者Aのものとなってしまう虞がある。この問題はエネルギ算出を検知音声蓄積部5:A、5;Bに蓄積された音声データ全体で行っているために生じる。これを解決するには、類似している音声のみを抽出し、時間ずれ補正部13によりエネルギ算出をし、ずれている時間を用いて元の音声を切り出せばよい(図8の(B)参照)。
FIG. 8A shows an image of the voice data of the detected voice storage units 5: A and 5: B of each speech section detection unit 4: A and 4: B. The light part is the voice of the speaker A's microphone M1's speech section detection unit 4: A, and the dark part is the voice of the speaker B's microphone M2's speech section detection unit 4: B. Shows the data. In the calculation of the degree of similarity, since the remarks of the speaker B are included in both, it is judged that they are similar, but a problem arises when calculating the energy. Since the voice data used for energy calculation also uses the voice of each detected voice storage unit 5: A, 5: B, if the voice energy of the speaker A's speech is large, the speaker A's speech is affected by that. It may be determined that the voice energy is high. As a result, the determination of the similarity works correctly, but there is a possibility that the remark of the speaker A having a higher voice energy is prioritized and the remark of the speaker B becomes that of the speaker A. This problem occurs because the energy calculation is performed for the entire voice data stored in the detection voice storage units 5: A, 5; B. To solve this, only similar voices should be extracted, energy should be calculated by the time
また、本実施形態に係る発言切り分けシステム2は、発言判別部10が人の音声かどうか判別するだけでなくノイズ判別の機能も有している。発言判別部10は、発言区間検知部4に入力された音声データについて、人の音声か音声以外の雑音かを判別し、音声以外の雑音と判別すると、音声エネルギにかかわらず、ステップS3、あるいはステップS13の結果がFalseとなるように構成される。
Further, the
また、本実施形態に係る発言切り分けシステム2は、発言区間検知部4の検知音声蓄積部5から発言終了検知部12により蓄積音声出力部9を通じて特定された話者Aとその音声データVM1を受け取ると、テキスト等の文字データ、この文字データを翻訳した翻訳データまたは音声のうち少なくともいずれか1を画面上に表示したり、出力する表示出力部20を有している(図1参照)。表示出力部20は、端末や表示装置から構成される。
Further, the
次に、本発明に係る発言切り分け方法について、上記実施形態に係る発言切り分けシステム2の作用に基づいて説明する。上記実施形態に係る発言切り分けシステム2では、図2に示すように、PC3には、情報処理部(CPU)と記憶部と入出力部と表示部とを備えるとともに、発言区間検知部4と検知音声蓄積部5と類似度判別部6と音声エネルギ判別部7と蓄積音声出力部9と発言開始検知部11と発言終了検知部12と時間ずれ補正部13とを備えて構成される。PC3には、端末や表示装置から構成される表示出力部20が接続される。本実施形態に係る発言切り分けシステム2では、第1のステップ(S101)で、マイクM1~Mn毎に、マイク1~Mnから取得される混在する複数の音声データを、発言区間検知部4により各音声データの開始から終了までの発言区間毎に検知してその音声データV:M1~V:Mnを各発言区間検知部4に対応する検知音声蓄積部5に蓄積するようになっている。次に、第2のステップ(S102)で、各マイク1~Mnから取得された音声データV:M1~V:Mnを同期させて参照し、類似度判別部6により取得した音声データV:M1~V:Mnの類似度を算出して類似度の高低を比較判別し、類似度が低い音声データは異なる話者の音声データとみなして判別する対象から除き、類似度が高い音声データ(例えば、VidM1、VidM2、VidM3)について同一の音声データとみなすようになっている。そして、第3のステップ(S103)で、これら類似度が高い同一とみなされた音声データ(例えば、VidM1、VidM2、VidM3)について、音声エネルギ判別部7により音声エネルギの大小を比較判別し、音声エネルギが相対的に大きい音声データ(例えば、VidM1>VidM2>VidM3)と判別されたマイクMx(M1)を特定し、そのマイクMx(M1)から取得され蓄積された音声データ(例えば、VidM1)をマイクMx(M1)の話者Aと関連付けし、蓄積音声出力部9により外部に出力するようになっている。表示出力部20では、受け取った話者Aとその話者の発言した音声データVM1を、テキスト等の文字データ、この文字データを翻訳した翻訳データまたは音声のファイルとして画面上に表示したり、出力することができるようになっている。
Next, the remark separation method according to the present invention will be described based on the operation of the
次に、一連の動作を、2人の話者A、Bが存在することを想定して説明する。各話者A、Bには、それぞれマイクM1、M2が装着され(図3参照)、各マイクM1、M2に対して発言区間検知部4:M1、4:M2を用いて発言区間を取り出す。
まず、話者A、Bともに発言していない場合について説明する。
図12の(A)(条件a参照)に示すように、発言区間検知部4:M1、4:M2の各発言開始検知部11:M1、9:M2において入力された音声フレーム(音声データ)の音声エネルギE_1、E_2が算出されるが、第1の閾値THR1を超えることがないため、検知状態Sは常に「未検知」となり、この処理が繰り返される。
Next, a series of operations will be described assuming that there are two speakers A and B. Microphones M1 and M2 are attached to the speakers A and B, respectively (see FIG. 3), and the speech section is taken out from each of the microphones M1 and M2 by using the speech section detection units 4: M1 and 4: M2.
First, a case where neither speaker A nor B speaks will be described.
As shown in (A) (see condition a) of FIG. 12, the voice frame (voice data) input in each of the speech start detection units 11: M1 and 9: M2 of the speech section detection unit 4: M1 and 4: M2. The voice energies E_1 and E_1 of the above are calculated, but since the first threshold value THR1 is not exceeded, the detection state S is always "undetected", and this process is repeated.
次に、図12の(B)(条件b参照)に示すように、話者Aのみが発言している場合について説明する。
話者Aの発言区間検知部4:M1の発言開始検知部11:M1において、音声フレームの検知状態Sが「検知中」に変更され、発言中は発言終了検知部12:M1が動作する。発言終了検知処理の類似度算出では、話者Bの発言区間検知部4:M2の検知状態Sが参照されるが、これは話者Bが発言しておらず常に「未検知」であるため、類似度判別部6の話者Aの類似度算出の結果がTrueとなる。従って、話者Aの発言区間検知部4:M1の発言終了検知部12:M1で検知音声蓄積部5:M1に音声フレームが格納され続け、音声エネルギE_1が第1の閾値THR1を下回ると、発言終了で発言区間が確定され、検知音声蓄積部5の音声が出力される。
Next, as shown in FIG. 12B (see condition b), a case where only the speaker A is speaking will be described.
In the speech section detection unit 4: M1 of the speaker A, the speech start detection unit 11: M1 changes the detection state S of the voice frame to "detecting", and the speech end detection unit 12: M1 operates during speech. In the similarity calculation of the speech end detection process, the detection state S of the speaker B's speech section detection unit 4: M2 is referred to, but this is because the speaker B is not speaking and is always "undetected". , The result of the similarity calculation of the speaker A of the
次に、図13(条件c参照)に示すように、話者Aの発言中に話者Bが発言した場合について説明する。
話者Aの発言中、話者Bが発言するまでは、図12の(B)に示す条件bと同様である。話者Aの発言中、話者Bが発言すると、話者Aの発言区間検知部4:M1での類似度算出において、話者Bの発言区間検知部4:M2の検知状態Sが参照され、検知状態Sが「検知中」で取得される。そうすると、話者Aと話者Bとの発言区間検知部4:M1、4:M2それぞれの検知音声蓄積部5:M1、5:M2に格納されている音声データに対して音声の積率相関係数(類似度)Cを算出しこの値が第3の閾値THR3を超えているかどうかを判定する。今回の条件では話者Bは話者Aとは異なる発言をしているため、音声は同一のものではない。よって、類似度判別部6からTrueが出力されるため、話者A、Bの発言区間検知部4:M1、4:M2それぞれで、上記条件bと同様の処理となる。話者Bについて、発言が継続していれば、話者Bの検知音声蓄積部5:M2では、音声データの蓄積が継続される。
Next, as shown in FIG. 13 (see condition c), a case where the speaker B speaks while the speaker A speaks will be described.
During the speech of the speaker A, the condition b is the same as that shown in FIG. 12 (B) until the speaker B speaks. When speaker B speaks while speaker A is speaking, the detection state S of speaker B's speech section detection unit 4: M2 is referred to in the similarity calculation by speaker A's speech section detection unit 4: M1. , The detection state S is acquired in "Detecting". Then, the voice product ratio phase with respect to the voice data stored in the detected voice storage units 5: M1 and 5: M2 of the speech section detection unit 4: M1 and 4: M2 of the speaker A and the speaker B, respectively. The number of relations (similarity) C is calculated, and it is determined whether or not this value exceeds the third threshold value THR3. Under this condition, speaker B speaks differently from speaker A, so the voices are not the same. Therefore, since True is output from the
次に、図14(条件d参照)に示すように、話者Aの発言が話者BのマイクM2でも取得された場合について説明する。
類似度算出までは上記条件cと同様であるが、話者Aの検知音声蓄積部5:M1に入力されている音声データは話者Aに装着されたマイクM1から取得されたものであるため、音声エネルギは他に比べて大きくなっているはずである。従って、話者Aの発言区間検知部4:M1での類似度結果はTrueとなり、検知され続ける。話者Bの発言区間検知部4:M2では音声エネルギが小さいため、類似度の結果がTrueにならず、発言終了検知部12:M2において検知状態が「未検知」に変更され、検知音声蓄積部5:M2の音声が出力されることはない。
Next, as shown in FIG. 14 (see condition d), a case where the remark of the speaker A is also acquired by the microphone M2 of the speaker B will be described.
The similarity calculation is the same as the above condition c, but since the voice data input to the detected voice storage unit 5: M1 of the speaker A is acquired from the microphone M1 attached to the speaker A. , Voice energy should be higher than others. Therefore, the similarity result in the speaker A's speech section detection unit 4: M1 becomes True and continues to be detected. Since the voice energy is small in the speech section detection unit 4: M2 of the speaker B, the result of the similarity is not True, the detection state is changed to "undetected" in the speech end detection unit 12: M2, and the detected voice is accumulated. Part 5: The sound of M2 is not output.
つまり、話者A、Bの発言を処理する際、話者A、Bのそれぞれの発言区間検知部4:M1、4:M2において、話者Aが発言していると、発言区間検知部4:M1の検知状態Sは「検知中」となり、ここで話者Bが発言した場合、類似度判別部6で類似度が計算される。話者A、Bの発言がそれぞれ独立していれば、互いの類似度は低い値となり、話者Bの発言区間検知部4:M2の検知状態Sは「検知中」となり、検知される。話者BのマイクM2で話者Aの発言を拾ってしまった場合には、類似度が高くなるため、より音声エネルギの大きい話者Aの音声が優先され、話者Bの音声は検知されない。
That is, when processing the remarks of the speakers A and B, if the speaker A is speaking in the remark section detection units 4: M1 and 4: M2 of the speakers A and B, the remark section detection unit 4 : The detection state S of M1 is "detecting", and when the speaker B speaks here, the
さらに、時間的な処理について、本実施形態では、リアルタイム処理が可能となっている。つまり、発言区間検知部4には一定区間の音声データが、短時間で一定間隔毎に区切られた音声フレームとして入力される。二人の話者A、Bが存在し、それぞれマイクM1、M2を装着し、マイクM1、M2に対応する発言区間検知部4:M1、4:M2では30msecごとに音声データX_M1[n]、X_M2[n]がそれぞれ音声フレームとして入力されるとすると、話者Aの発言区間検知部4:M1にはX_M1[0]、X_M1[1]…と次々と30msec分の音声データが入力されるが、話者Bの発言区間検知部4:M2にも時間的に同じ音声データX_M2[0]、X_M2[1]…が入力され続ける。始めに動作する発言区間検知部4が話者Aの発言区間検知部4:M1だった場合、発言区間検知部4:M1では、X_M1[0]の入力に対する処理を行う。直後に次の音声データX_M1[1]の処理を開始するのではなく、話者Bの発言区間検知部4:M2でX_M2[0]に対する処理の完了を待たなければ、発言区間検知部4毎の時間ずれが発生してしまうため、同期をとる必要がある。この例では、時刻nの音声データに対する発言区間検知部4:M1、4:M2の処理が30msec以内で完了するならば、リアルタイムでの処理が可能となる。
Further, regarding temporal processing, real-time processing is possible in this embodiment. That is, the voice data of a certain section is input to the speech
このように、本実施形態に係る発言切り分けシステム2とその方法では、類似度と音量を用いるだけの簡素な構成で、同一空間に複数の話者が存在する会議やコールセンター、インカム通話などの場において、あるいは、オンライン会議などで、他の話者の音声を自己の端末のスピーカを通じて聞きながら話し合う場において、複数の話者の音声を重複することなくしかも話者とその発言を正確に特定してリアルタイムで切り出すことができる。また、話者とその発言とを関連付けしなければ、異なる話者の発言を重複なく切り出すことができる。
As described above, the
なお、上記実施形態に係る発言切り分けシステム2では、図3の(A)に示すように、同一空間内において話者A~N毎にマイクM1~Mnを装着し、これらマイクM1~Mnから自己の音声と他者の音声が混在して入力される音声データを重複なく切り出すようにしているが、これに限られるものではなく、図3の(B)に示すように、特定(自己)の話者A-Rが自らの端末M-1のマイクを通じて遠隔地の他の話者B-R、C-R・・N-Rと端末M-2~M-nを通じて話し合う場合であって、他の話者B-R~N-Rの音声が自らの端末M-1のマイクを通じて入力される場合も同様に、音声データを異なる話者毎に発言を重複なく切り出すことができる。さらに、話者を特定しないで、異なる話者の発言として切り出すこともできる。音声入力部としての端末M-1~M-nには、ノートPC、デスクトップPC、スマートフォンが含まれる。
In the
また、上記実施形態に係る発言切り分けシステム2では、図3の(A)、(B)に示すように、同一空間内の話者A~N毎に装着され関連付けされた個別の音声入力部、すなわち、マイクM1~Mnを通じて自他の音声が入力されるか、または遠隔地の話者A-R~N-R毎に関連付けされた端末M-1~M-Rのマイクを通じて自他の音声が入力されるようになっているが、これに限られるものではなく、図10に示すように、個別の音声入力部(マイクまたは端末)G・M1~G・Mn毎に複数の話者(a1、a2、a3)、(b1、b2、b3)・・(n1、n2、n4)の発言が入力されるようにしてもよい。すなわち、複数の話者からなる話者グループG・A、G・B、・・G・N毎に音声入力部G・M1~G・Mnを対応させるようにしている。このように構成することにより、話者一人ひとりでなく話者グループとその話者グループ毎の発言の音声データを入手することができる。つまり、話者グループ毎にG・A、G・B、・・G・N毎に発言を切り出す場合、自他の検知音声蓄積部5を同期させて類似度の高低を判別し、類似度が低いと異なる話者グループの発言とみなし、類似度が高いと同一の話者グループの発言とみなし、音声エネルギの相対的大小を判別して話者グループを特定し、検知音声蓄積部5から蓄積された音声データを出力し、話者グループとしての発言を切り出すようにしている。ただし、発言者グループ内の個別の話者は特定しないようになっている。
Further, in the
なお、上記実施形態では、短時間で一定間隔毎に区切られた音声フレームを、例えば、30msec分の音声データとしているがこれに限られるものではなく、用途や会議場の状況マイクの性能等に応じて適宜変更してもよいことは言うまでもない。また、本実施形態では、音声長さ判別部8で予め設定された所定の長さを、1秒未満で、好ましくは0.5秒に設定しているがこれに限られるものではなく、条件に応じて設定してよいことはいうまでもない。
In the above embodiment, the audio frames divided at regular intervals in a short time are used as audio data for, for example, 30 msec, but the present invention is not limited to this, and may be used for applications, conference hall status microphone performance, or the like. Needless to say, it may be changed as appropriate. Further, in the present embodiment, the predetermined length preset by the voice
2 発言切り分けシステム
4 発言区間検知部
5 検知音声蓄積部
6 類似度判別部
7 音声エネルギ判別部
A~N 話者
M1~Mn マイク
2
Claims (15)
自己の音声と他者の音声が混在して入力される話者毎の音声入力部を備え、
これら音声入力部毎に取得され混在する複数の音声データを、各音声データの開始から終了までの発言区間毎に検知して自己の音声入力部から入力された自己の音声データを蓄積し、各音声入力部から取得された話者毎の蓄積された音声データを同期させて参照し、取得した話者毎の音声データの類似度を算出して類似度の高低を比較判別し、類似度が低い音声データは異なる話者の音声データとみなし、類似度が高い音声データは同一話者の音声データとみなし、これら類似度が高い話者が同一とみなされた音声データについて音声エネルギの大小を比較判別し、音声エネルギが相対的に大きいと判別された音声データを、自己の音声入力部から入力された自己の発言と特定し、自他の発言を切り分けることを特徴とする発言切り分けシステム。 It is a speech separation system that cuts out speech based on the voice data that is acquired and input by mixing the voices of multiple speakers.
Equipped with a voice input unit for each speaker, in which one's own voice and another's voice are mixed and input.
Multiple voice data acquired and mixed in each of these voice input units are detected for each speech section from the start to the end of each voice data, and the own voice data input from the own voice input unit is accumulated and each is stored. The accumulated voice data for each speaker acquired from the voice input unit is synchronized and referred to, the similarity of the acquired voice data for each speaker is calculated, and the high and low of the similarity are compared and discriminated, and the similarity is determined. Low voice data is regarded as voice data of different speakers, voice data with high similarity is regarded as voice data of the same speaker, and the magnitude of voice energy is determined for the voice data in which speakers with high similarity are regarded as the same. A remark separation system characterized in that voice data that is determined to have a relatively large voice energy by comparison and discrimination is identified as one's own remarks input from one's own voice input unit, and one's own remarks are separated.
自己の音声と他者の音声が混在して入力される話者毎の音声入力部と、
各音声入力部毎に設けられ、自己の音声入力部から取得され混在する複数の音声データから自己の音声データの発言開始から発言終了までの発言区間を検知する発言区間検知部と、
発言区間検知部毎にそれぞれ設けられ、検知された自己の発言区間の音声データを蓄積する検知音声蓄積部と、
各発言区間検知部とその検知音声蓄積部とを同期させて参照し、各発言区間検知部の検知音声蓄積部に蓄積された音声データについて、類似度を算出して類似度の高低を比較判別し、類似度が低い音声データは異なる話者の音声データとみなし、類似度が高い音声データは複数の音声入力部から取得された同一話者の音声データとみなす類似度判別部と、
類似度判別部により判別された同一話者の音声データについて、音声データ毎に音声エネルギを算出して音声エネルギの大小を比較判別し、音声エネルギが相対的に高いと判別された音声データが取得された発言区間検知部を特定する音声エネルギ判別部とを有し、
特定された発言区間検知部とその検知音声蓄積部に蓄積された音声データに基づいて、話者とその発言を切り出すことを特徴とする発言切り分けシステム。 It is a speech separation system that cuts out speech based on the voice data that is acquired and input by mixing the voices of multiple speakers.
A voice input unit for each speaker, in which one's own voice and another's voice are mixed and input,
A speech section detection unit, which is provided for each voice input section and detects a speech section from the start to the end of speech of the own voice data from a plurality of voice data acquired from the own voice input section and mixed.
A detection voice storage unit, which is provided for each speech section detection unit and stores the detected voice data of the own speech section,
Each speech section detection unit and its detected voice storage section are referred to in synchronization, and for the voice data stored in the detection voice storage section of each speech section detection section, the similarity is calculated and the high and low of the similarity are compared and discriminated. However, the voice data having a low degree of similarity is regarded as the voice data of different speakers, and the voice data having a high degree of similarity is regarded as the voice data of the same speaker acquired from a plurality of voice input units.
For the voice data of the same speaker determined by the similarity discrimination unit, the voice energy is calculated for each voice data and the magnitude of the voice energy is compared and discriminated, and the voice data determined to have a relatively high voice energy is acquired. It has a voice energy discriminating unit that identifies the spoken section detection unit.
A speech separation system characterized by cutting out a speaker and his / her speech based on the voice data stored in the specified speech section detection unit and the detected voice storage unit.
音声フレームを、未検知または検知中の何れかの状態として検知し、初期状態を未検知とし、検知状態が未検知で発言の開始を検知すると検知状態を検知中に変更する発言開始検知部と、
検知状態が検知中の間、検知音声蓄積部へ音声データの蓄積を行い、発言の終了を検知すると検知音声蓄積部に蓄積された音声データを出力あるいは削除し、検知状態を未検知に変更する発言終了検知部とを有することを特徴とする請求項3ないし6のうちいずれか1に記載の発言切り分けシステム。 The input voice data is input to the speech section detection unit as a voice frame divided at regular intervals, and is also input.
With a speech start detector that detects the voice frame as either undetected or detected, sets the initial state as undetected, and changes the detected state to during detection when the detected state is undetected and the start of speech is detected. ,
While the detection state is being detected, voice data is accumulated in the detected voice storage unit, and when the end of speech is detected, the voice data stored in the detection voice storage unit is output or deleted, and the detection state is changed to undetected. The speech separation system according to any one of claims 3 to 6, further comprising a detection unit.
発言区間検知部に入力される音声フレームについて、
この音声フレームを、発言開始直後または発言終了直前のうち少なくともいずれか一方で、音声エネルギの大小を予め求められた音声エネルギの閾値に基づいて、人の音声か音声以外の雑音か否かを判別する発言判別部を有し、
音声以外の雑音と判別された音声データに基づいて特定された発言区間検知部の検知音声蓄積部に蓄積され雑音と判別された音声データを削除することを特徴とする請求項7に記載の発言切り分けシステム。 Noise is mixed with own and other voices in the voice input section.
About the voice frame input to the speech section detection unit
It is determined whether or not the voice frame is human voice or non-voice noise based on the threshold value of voice energy obtained in advance for the magnitude of voice energy at least one of immediately after the start of speech and immediately before the end of speech. Has a speech discrimination unit
The statement according to claim 7, wherein the voice data accumulated in the detection voice storage unit of the speech section detection unit specified based on the voice data determined to be noise other than voice and determined to be noise is deleted. Carving system.
所定時間長さを有する場合、音声エネルギ判別部で音声エネルギの大小を比較判別し、所定時間長さを有していない場合、蓄積された音声データを検知音声蓄積部から削除することを特徴とする請求項3ないし8のうちいずれ1に記載の発言切り分けシステム。 For the voice data of the same speaker determined by the similarity determination unit, the voice length for determining whether or not the voice time has a predetermined length based on a predetermined voice time length threshold. It has a discriminator and
When it has a predetermined time length, the voice energy discrimination unit compares and discriminates the magnitude of the voice energy, and when it does not have a predetermined time length, the stored voice data is deleted from the detection voice storage unit. The speech isolation system according to any one of claims 3 to 8.
自己の音声と他者の音声が混在して入力される話者毎の音声入力部を備え、
これら音声入力部毎に取得され混在する複数の音声データを、各音声データの開始から終了までの発言区間毎に検知して自己の音声入力部から入力された自己の音声データを蓄積する第1のステップと、
各音声入力部から取得された話者毎の蓄積された音声データを同期させて参照し、取得した話者毎の音声データの類似度を算出して類似度の高低を比較判別し、類似度が低い音声データは異なる話者の音声データとみなし、類似度が高い音声データは同一話者の音声データとみなす第2のステップと、
これら類似度が高い話者が同一とみなされた音声データについて音声エネルギの大小を比較判別し、音声エネルギが相対的に大きいと判別された音声データを、自己の音声入力部から入力された自己の発言と特定し、自他の発言を切り分ける第3のステップとを有することを特徴とする発言切り分け方法。 It is a remark separation method that cuts out remarks based on the voice data that is acquired and input by mixing the voices of multiple speakers.
Equipped with a voice input unit for each speaker, in which one's own voice and another's voice are mixed and input.
The first method of detecting a plurality of voice data acquired and mixed in each voice input unit for each speech section from the start to the end of each voice data and accumulating the own voice data input from the own voice input unit. Steps and
The accumulated voice data for each speaker acquired from each voice input unit is synchronized and referred to, the similarity of the acquired voice data for each speaker is calculated, and the high and low of the similarity are compared and discriminated to determine the similarity. The second step, in which voice data with a low value is regarded as voice data of different speakers, and voice data with high similarity is regarded as voice data of the same speaker,
Speakers with a high degree of similarity compare and discriminate the magnitude of the voice energy for the voice data considered to be the same, and the voice data determined to have a relatively large voice energy is input from the voice input unit of the self. A speech isolation method characterized by having a third step of identifying the speech and the speech of oneself and others.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020181115A JP7356960B2 (en) | 2020-10-29 | 2020-10-29 | Speech segmentation system and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020181115A JP7356960B2 (en) | 2020-10-29 | 2020-10-29 | Speech segmentation system and method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022071960A true JP2022071960A (en) | 2022-05-17 |
JP7356960B2 JP7356960B2 (en) | 2023-10-05 |
Family
ID=81605258
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020181115A Active JP7356960B2 (en) | 2020-10-29 | 2020-10-29 | Speech segmentation system and method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7356960B2 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016029468A (en) * | 2014-07-16 | 2016-03-03 | パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America | Speech information control method and terminal apparatus |
JP2017167318A (en) * | 2016-03-16 | 2017-09-21 | 株式会社アドバンスト・メディア | Minute generation device and minute generation program |
JP2020122835A (en) * | 2019-01-29 | 2020-08-13 | パナソニックIpマネジメント株式会社 | Voice processor and voice processing method |
-
2020
- 2020-10-29 JP JP2020181115A patent/JP7356960B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016029468A (en) * | 2014-07-16 | 2016-03-03 | パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America | Speech information control method and terminal apparatus |
JP2017167318A (en) * | 2016-03-16 | 2017-09-21 | 株式会社アドバンスト・メディア | Minute generation device and minute generation program |
JP2020122835A (en) * | 2019-01-29 | 2020-08-13 | パナソニックIpマネジメント株式会社 | Voice processor and voice processing method |
Also Published As
Publication number | Publication date |
---|---|
JP7356960B2 (en) | 2023-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7672844B2 (en) | Voice processing apparatus | |
US8078463B2 (en) | Method and apparatus for speaker spotting | |
KR101616112B1 (en) | Speaker separation system and method using voice feature vectors | |
US9165182B2 (en) | Method and apparatus for using face detection information to improve speaker segmentation | |
JP5030868B2 (en) | Conference audio recording system | |
JPH0431898A (en) | Voice/noise separating device | |
JP5549506B2 (en) | Speech recognition apparatus and speech recognition method | |
CN113744742B (en) | Role identification method, device and system under dialogue scene | |
Boakye et al. | Two's a crowd: improving speaker diarization by automatically identifying and excluding overlapped speech. | |
JP2017167318A (en) | Minute generation device and minute generation program | |
JP2017062307A (en) | Voice processing device, voice processing method and voice processing program | |
US20120155663A1 (en) | Fast speaker hunting in lawful interception systems | |
US20200251120A1 (en) | Method and system for individualized signal processing of an audio signal of a hearing device | |
JPH0792988A (en) | Speech detecting device and video switching device | |
JP3838159B2 (en) | Speech recognition dialogue apparatus and program | |
JP2022071960A (en) | Utterance cutting and dividing system and method therefor | |
US7340398B2 (en) | Selective sampling for sound signal classification | |
Zhang et al. | Advancements in whisper-island detection using the linear predictive residual | |
US20230005488A1 (en) | Signal processing device, signal processing method, program, and signal processing system | |
JP2013235050A (en) | Information processing apparatus and method, and program | |
JP3437492B2 (en) | Voice recognition method and apparatus | |
WO2021246304A1 (en) | Signal processing device, signal processing method, and program | |
KR102661005B1 (en) | Method and Device for speaker's sound separation from a multi-channel speech signals of multiple speaker | |
US20230138068A1 (en) | Voice evaluation system, voice evaluation method, and computer program | |
JPH04324499A (en) | Speech recognition device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220609 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230320 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230404 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230531 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230919 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230925 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7356960 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |