JP7110057B2

JP7110057B2 - 音声認識システム

Info

Publication number: JP7110057B2
Application number: JP2018193388A
Authority: JP
Inventors: 浩之三浦
Original assignee: 浩之三浦
Priority date: 2018-10-12
Filing date: 2018-10-12
Publication date: 2022-08-01
Anticipated expiration: 2038-10-12
Also published as: JP2020060735A

Description

本発明は、例えば複数の話者に対しても、認識精度の高い音声認識システムに関するものである。

マイクロホンから音声入力された音声データをテキスト化する音声認識装置は、広く普及している。そして、特許文献１には話者ごとに発声特徴を学習させて、音声認識の精度を高める音声認識装置が開示されている。

また、様々なクラウドサービスにおいて、ディープラーニング（深層学習）を利用した学習システムが構築されている。これらの学習システムは、インターネットを介して多数のユーザから収集されるデータを基に、ニューラルネットワークベースの処理装置により、自己学習によりデータ分析、解析を行う。

人間からの指示を待たずに自己学習してゆくことで、効率的に処理装置の出力精度を高めることが可能であり、ディープラーニングを活用したクラウドサービスによってデータ分析された分析結果をユーザは利用している。

特開２００２－２１５１８４８号公報

しかし、特許文献１の音声認識装置は、マイクロホンから収集される音声のみから学習しているため、収集できる音声データに限界がある。また、上述のクラウドサービスでは演算処理部を並列に多数配置するような大規模のシステムが構築されているのに対して、特許文献１の音声認識装置はシステム規模が小さいものとなってしまう。従って、特許文献１の音声認識装置は学習精度の向上が遅く、テキスト化、話者特定の精度がなかなか向上しないという問題がある。

本発明の目的は、上述の課題を解決し、インターネットを介したクラウドサービスである学習型サーバを利用することで、収集した音声を精度良くテキスト化すると共に、精度良く話者の特定を行う音声認識システムを提供することにある。

上記目的を達成するための本発明に係る音声認識システムは、周囲の音を入力する集音部と、該集音部から入力した音データのデータ加工を行うことにより音声ファイルを生成する処理部と、該処理部の処理結果を表示するモニタ部とから構成される音声認識システムであって、前記処理部はインターネットを介して自己学習機能を備えた文字変換サーバ及び話者特定サーバと接続しており、前記音声ファイルを前記文字変換サーバに送信して、前記文字変換サーバから前記音声ファイルをテキスト化した文章ファイルを受信し、前記音声ファイル及び話者のユーザＩＤ情報を前記話者特定サーバに送信して、前記音声ファイルに対する前記話者の特定結果を受信し、前記音声ファイルに対応する前記文章ファイル及び前記話者の特定結果を前記モニタ部に表示することを特徴とする。

本発明に係る音声認識システムによれば、インターネットを介して多数のユーザから収集されるデータを基に、自己学習によりデータ分析、解析を行うクラウドサービスである文字変換サーバ及び話者特定サーバを利用することで、文字変換機能及び話者特定機能を設けることなく、音声ファイルに対して精度よく文字変換及び話者特定を行うことができる。

また、音声ファイルに文章ファイルと特定結果の話者を対応付けて、モニタ部に時系列順にほぼリアルタイムで表示させることができる。話者と発言内容とを文字で確認することができ、画面のスクロールにより過去の発言も容易に確認することが可能である。

音声認識システムのシステム構成図である。音声データから音声ファイルを生成する場合のフローチャート図である。話者の音声データを波形で表した説明図である。話者ごとの音声データの一覧図である。別の話者の音声データを波形で表した説明図である。話者ごとの音声データを判別する説明図である。モニタ部に表示されるテキスト文の説明図である。

本発明を図示の実施例に基づいて詳細に説明する。
音声認識システム１は、周囲の音を入力する集音部２と、この集音部２から入力した音データのデータ加工を行うことで音声ファイルＦを生成し、この音声ファイルＦを文字変換サーバ及び話者特定サーバに送信し、文章ファイルＷと話者Ｈの特定結果を受信する処理部３と、処理部３の処理結果を表示するモニタ部４から構成される。

音声認識システム１には、市販のノートパソコンやデスクトップパソコンを用いてもよく、集音部２として例えば外付けのマイクロホン等を使用する。集音部２は左右の二重で録音されるステレオタイプではなく、モノラルタイプを使用し、高品質のものが好ましい。このモノラルタイプの集音部２をテーブル等の話者間の中央に設置することになる。

処理部３は演算部３ａ、メモリ部３ｂ及び記憶部３ｃから成り、記憶部３ｃに記憶したソフトウェアを起動することで、各種のデータ処理を行う。この処理部３と集音部２とは有線又は無線で接続されている。

モニタ部４は処理部３と接続されており、例えば液晶ディスプレイからなり、モニタ部４に処理部３における各種処理結果等を表示されることができる。なお、モニタ部４はネットワークを介して接続した別のＰＣや携帯端末のモニタ等であってもよい。

文字変換サーバ５は、インターネットＩＮ上に存在するニューラルネットワークベースのＡＰＩ（Application Programming Interface）であり、音声認識システム１とインターネットＩＮを介して接続されている。

文字変換サーバ５は音声認識システム１外であって、音声認識システム１の処理部３から音声ファイルＦがアップロードされると、文章ファイルＷに変換するテキスト化処理を行い、処理部３は生成した文章ファイルＷをダウンロードすることができる。数分間に渡る長い音声ファイルＦをアップロードすると、テキスト化処理に時間を要するため、音声データＶを数１０秒以下に区切り、文字変換サーバ５にアップロードすることが好ましい。

また、文字変換サーバ５は大量のユーザからアップロードされる音声ファイルを基にディープラーニングを行い、テキスト化処理の自己修正している。従って、時間が経過するにつれて、テキスト化処理の変換精度が向上することになる。

同時に、文字変換サーバ５と別体である話者特定サーバ６は、インターネットＩＮ上に存在するニューラルネットワークベースのＡＰＩであり、音声認識システム１とインターネットＩＮを介して接続されている。

この話者特定サーバ６は、予め話者ごとに音声サンプルを登録しておき、音声認識システム１から音声データＶを話者特定サーバ６にアップロードすると、登録している話者データに基づいて、音声データＶの話者を特定することが可能である。例えば、話者Ｈａの音声データをアップロードすると、話者Ｈａが既に話者特定サーバ６に登録されていれば、音声データの声主は、話者Ｈａであると特定されることになる。また、話者特定サーバ６には多数の話者が登録されているため、登録しているユーザＩＤのグループを音声データＶと共にアップロードすることで、効率的にユーザＩＤから認識することが可能である。

この話者特定サーバ６も大量のユーザからアップロードされる音声ファイルを基に、ディープランニングを利用して自己分析を行いながら、話者特定を行うため、時間が経過するにつれて話者特定のための精度が向上する。

例えば、複数の話者である話者Ｈａ、Ｈｂ、ＨｃのそれぞれのユーザＩＤを、話者Ｈａ、Ｈｂ、Ｈｃの会話を録音した音声データＶと共に話者特定サーバ６にアップロードすることにより、各話者Ｈａ、Ｈｂ、Ｈｃの特定は３つのユーザＩＤから選出されることになる。従って、話者特定の処理速度が速くなると共に、話者特定の精度が向上することになる。

図２は集音部２を介して処理部３に入力した音データに対する音声ファイル生成のフローチャート図である。音データは集音部２に入力されたデータであり、録音した音データを加工したものが音声データＶとなる。

図１に示すように、例えば話者Ｈａ、Ｈｂ、Ｈｃの中心に１個の集音部２を配置し、会議を開始した場合の処理部３の処理について説明する。会議が開始されると、図３に示すように話者Ｈａ、Ｈｂ、Ｈｃは時系列にそれぞれ音声を発して、これらが合成された１つの音データが得られる。

ステップＳ１において、記憶部３ｃに記憶した音データに対して、人間の発声周波数のみを抽出して音声データＶとして記憶する。この抽出処理は例えば、椅子を動かした音や、救急車のサイレン音等が音データに混入されると、それらの音域をノイズとしてカットしたものを音声データＶとして記憶することになる。

図３は時間ｔ１１から録音を開始した音声データＶを簡略した波形で表した説明図である。例えば、最初に話者Ｈａが「これから会議を始めます。」と発言し、次に話者Ｈｂが「了解です。」、更に話者Ｈｃが「分かりました。」と続き、その後に話者Ｈａが「それでは議題に移ります。」と発言したときの音声の波形である。

続いて、図２のステップＳ２に移行し、音声データＶの発言と発言の間の無音状態である無音時間ｍを計測する。例えば、無音時間ｍの閾値を１秒と設定し、１秒以上の無音時間ｍ１が発生すると、ステップＳ３に移行する。ステップＳ２で１秒以下の無音時間ｍ０があると、ステップＳ２の処理を繰り返して行う。

ステップＳ３では、無音時間ｍ１により区切れた直前の音声データＶに対して、話者Ｈが複数人存在するか否かの判定を行う。この話者Ｈを識別する処理は、所定間隔でサンプリングした音声データＶに対して、話者Ｈごとに中心周波数が異なることを利用する。中心周波数の変位から、無音時間ｍ１により区切れた直前の音声データの話者Ｈの人数を判別することが可能である。

話者Ｈの人数を判別した後にステップＳ４に移行し、話者Ｈが複数である場合はステップＳ５に移行し、話者Ｈが単数の場合は、ステップＳ４を省略してステップＳ６に移行する。

図３に示す音声データＶでは、時間ｔ１２、ｔ１３、ｔ１４、ｔ１５で区切られた直前の音声データＶは、何れも１人ずつの周波数特性しかないので、ステップＳ４では、ステップＳ５を省略してステップＳ６に移行する。

ステップＳ５の処理は後述し、先にステップＳ６における処理を説明すると、区切られた音声データＶは、図４に示すように話者Ｈａが最初に発言した「これから会議を始めます。」の音声ファイルＦ１：ｔ１１、話者Ｈｂが発言した「了解です。」の音声ファイルＦ２：ｔ１２、話者Ｈｃが発言した「分かりました。」の音声ファイルＦ３：ｔ１３、話者Ｈａが発言した「それでは議題に移ります。」の音声ファイルＦ４：ｔ１４として保存される。なお、これらの音声ファイルＦに対して、処理部３は誰の発言であるかを特定することはできない。

そして、生成された各音声ファイルＦを、文字変換サーバ５及び話者特定サーバ６に送信する。送信後にステップＳ２に戻り、ステップＳ２～ステップＳ６の処理を繰り返す。

図３は前述のように話者Ｈａ、Ｈｂ、Ｈｃが会話をする際に、最初の話者Ｈａの会話が終わった後に、無音時間ｍ１が発生した後に、次の話者Ｈｂの音声が開始する音声データを示しているが、図５は話者Ｈａ、Ｈｂ、Ｈｃの会話の間に無音時間が閾値以下の無音時間ｍ０であった場合における音声データＶを簡略した波形で表した説明図である。

図５に示す話者Ｈａの「それでは議題に移ります。」との発言後に、最初の無音時間ｍ１が発生した場合では、ステップＳ３において、時間ｔ２１で区切られた直前の音声データＶ０に対して、所定時間でサンプリングして中心周波数を測定する。そして、ステップＳ４において中心周波数が複数の場合に、つまり話者Ｈが複数の場合にはステップＳ５に移行する。

ステップＳ５では、判別した話者Ｈごとの音声ファイルＦを生成する。図６は時間ｔ２５で無音時間ｍ１が発生することで区切られた直前の音声データＶ０に対して、中心周波数の変位から話者Hを判別する場合の説明図である。この音声データＶ０の中心周波数を判別することで、時間ｔ２１から開始する音声データＶＨ１、時間ｔ２２から開始する音声データＶＨ２、時間ｔ２３から開始する音声データＶＨ３に区分することができる。

なお、音声データＶ０の一部に２人の話者Ｈが重複して発声して録音されている場合であっても、サンプリング時間を短くする、例えば１０ｍｓｅｃとすることで、各サンプリング時間を占有する話者Ｈを特定することができ、重複して発声している音声データＶ０から個々の音声データＶへ区分けすることが可能である。

更に、２つの発言から成る音声データＶＨ１は、発言間に無音時間ｍ１が存在することから、２つの音声ファイルＦの音声ファイルＦ１：ｔ２１と音声ファイルＦ４：ｔ２４を生成することができる。

以上の判別処理を行うことで、図４に示す音声ファイルＦ１：ｔ１１～Ｆ４：ｔ１４と同様な音声ファイルＦ１：ｔ２１～Ｆ４：ｔ２４を生成することができる。なお、処理部３ではこれらの音声ファイルＦ１：ｔ２１～Ｆ４：ｔ２４について話者が異なることは判別できても、誰の発言であるのかを特定することはできない。

また、音声データＶＨ１から２つの音声ファイルＦを生成する処理を行わず、１つの音声ファイルＦ１：ｔ２１のみを生成するようにしてもよい。この場合は、音声ファイルＦ１：ｔ２１の後半の発言と、音声ファイルＦ２：ｔ２２、Ｆ３：ｔ２３の発言との時系列を明確にするため、時間ｔ２１～ｔ２４の情報を各音声ファイルに記憶する必要がある。つまり、音声ファイルＦ１：ｔ２１に時間ｔ２１、ｔ２４を記憶することで、後述するモニタ部４に各発言を時間ｔ２１～ｔ２４の時系列で表示することができる。

図３に示す音声データＶと図５に示す音声データＶの処理部３における処理の差は、図３の音声データＶにおいては無音時間ｍ１が発生する度に、音声ファイルＦａが生成され、図４の音声ファイルＦ１：ｔ１１～Ｆ４：ｔ１４は上から順に生成されて、生成される都度ステップＳ６に移行することになる。これに対して、図５の音声データＶにおいては音声ファイルＦ１：ｔ２１～Ｆ４：ｔ２４がほぼ同時に生成され、ステップＳ６に移行することになる。

ステップＳ６において、生成された音声ファイルＦを文字変換サーバ５に送信すると、音声ファイルＦ１：ｔ１１～Ｆ４：ｔ１４及び音声ファイルＦ１：ｔ２１～Ｆ４：ｔ２４は、それぞれテキスト化された文章ファイルＷ１：ｔ１１～Ｗ４：ｔ１４及び文章ファイルＷ１：ｔ２１～Ｗ４：ｔ２４に変換され、音声認識システム１はこれらのファイルを受信することになる。

また、生成された音声ファイルＦを話者特定サーバ６に送信する際には、音声ファイルＦ１：ｔ１１～Ｆ４：ｔ１４及び音声ファイルＦ１：ｔ２１～Ｆ４：ｔ２４に加えて、会話を構成する話者Ｈａ～ＨｃのユーザＩＤを併せて送信する。話者特定サーバ６は、処理部３から送信された音声ファイルＦ１：ｔ１１～Ｆ４：ｔ１４及び音声ファイルＦ１：ｔ２１～Ｆ４：ｔ２４に対して、併せて送られてきたユーザＩＤの中からそれぞれの話者Ｈを特定し、処理部３は特定結果の話者Ｈａ～Ｈｃを音声ファイルＦに対応して受信する。

そして処理部３では、音声ファイルＦに文章ファイルＷと特定結果の話者Ｈを対応付けて、モニタ部４に時系列順に表示する。つまり、話者Ｈが特定できなかった「これから会議を始めます。」の音声ファイルＦ１：ｔ１１は、「これから会議を始めます。」の文章ファイルＷ１：ｔ１１と、話者Ｈａが特定されて、図７に示すように表示される。

音声ファイルＦは、ファイル名末尾が時間ｔに対する通し番号として保存され、図７に示すように文章ファイルＷ及び話者Ｈは時間ｔの時系列順に表示される。なお、図７では話者Ｈを識別し易くするために、話者Ｈａを左側に表示し、話者Ｈｂ、Ｈｃを右側に表示している。

このように各ファイルの生成、クラウドサービスへの送受信に多少のタイムラグが発生するものの、ほぼリアルタイムで最新の音声ファイルＦに対する発言日時、文章ファイルＷ及び話者Ｈがモニタ部４の画面下部から順に表示されることになる。

なお、音声ファイルＦのファイル名を基に表示する順を決定しているが、ファイル名以外にも時間ｔ１１～ｔ１４をファイルのヘッダ等に発言日時として記憶することで、それらの情報を基に時系列で表示することができる。

また、表示される発言日時に代えて、画面に表示処理した処理日時を表示するようにしてもよい。この場合は、上述の発言日時を記憶せずに、処理部３から音声ファイルＦを生成した順でクラウドサービスに送信し、受信することを条件として次の音声ファイルＦをクラウドサービスに送るようにしてもよい。

図７に示すように会話形式で表示されることで後日に、誰がどのような発言をしたのかを容易に確認することが可能である。また、図７に示す画面を他の端末装置を接続したＰＣや携帯端末で閲覧可能とすることで、ほぼリアルタイムで他の場所から会議の内容を目視で確認することができる。

特に、別の場所で会議を音で聞いている場合には、話者Ｈを特定できずに、全体の内容を把握し難いのに対して、音声認識システム１では話者と発言内容とを文字で確認できるので会議内容を把握し易い。

更には、音声を出力することが困難な場所での会議内容の確認や、聴覚障害者による会議内容を確認する際に、容易に会議の内容を把握することができる。画面のスクロールにより過去の発言を簡単に確認することもできる。

また、音声認識システム１のテーブル等の話者Ｈａ～Ｈｃの中央に設置した集音部２により、集音した音データを用いて説明したが、別の場所等で録音した音声データを含む音データのファイルをネットワークや記憶媒体等を経由して記憶部３ｃに記憶させて、又は直接読み込ませて演算部３ａにより前述のフローチャートの処理を行うようにしてもよい。

このように、音声認識システム１はインターネットＩＮを介して多数のユーザから収集されるデータを基に、自己学習によりデータ分析、解析を行うクラウドサービスである文字変換サーバ５及び話者特定サーバ６を利用することで、文字変換機能及び話者特定機能を設けることなく、精度のよい文字変換及び話者特定を行うことができる。

また、会議内容をほぼリアルタイムで文章化することができ、また録音した音声ファイルに対しても事後的に文章化することができるので、迅速な会議内容の把握に役立てることが可能である。

１音声認識システム
２集音部
３処理部
４モニタ部
５文字変換サーバ
６話者特定サーバ
ＩＮインターネット

Claims

周囲の音を入力する集音部から入力した音声データを含む音データを、データ加工することにより音声ファイルを生成する処理部と、該処理部の処理結果を表示するモニタ部とから構成される音声認識システムであって、
前記処理部はインターネットを介して自己学習機能を備えた文字変換サーバ及び話者特定サーバと接続しており、
前記音声ファイルを前記文字変換サーバに送信して、前記文字変換サーバから前記音声ファイルをテキスト化した文章ファイルを受信し、
前記音声ファイル及び話者のユーザＩＤ情報を前記話者特定サーバに送信して、前記音声ファイルに対する前記話者の特定結果を受信し、
前記音声ファイルに対応する前記文章ファイル及び前記話者の特定結果を前記モニタ部に表示することを特徴とする音声認識システム。
前記音データから人間の発声の周波数のみを抽出した音声データを生成し、前記話者の発言と発言との間の無音状態が所定時間以上の場合に前記音声データを区切り、区切れた直前の音声データに基づいて、前記音声ファイルを生成することを特徴とする請求項１に記載の音声認識システム。
前記音声データを所定間隔でサンプリングして、中心周波数の特性の判別により、前記話者ごとの前記音声ファイルを生成することを特徴とする請求項２に記載の音声認識システム。
前記モニタ部は前記音声ファイルに対応する前記文章ファイルと前記特定結果の前記話者とを対応付けて時系列順に表示することを特徴とする請求項１～３の何れか１項に記載の音声認識システム。