JP6716300B2

JP6716300B2 - 議事録生成装置、及び議事録生成プログラム

Info

Publication number: JP6716300B2
Application number: JP2016052216A
Authority: JP
Inventors: 雄一大坪; 充俊都丸; 康仁植木; 高橋　正; 正高橋
Original assignee: Advanced Media Inc
Current assignee: Advanced Media Inc
Priority date: 2016-03-16
Filing date: 2016-03-16
Publication date: 2020-07-01
Anticipated expiration: 2036-03-16
Also published as: JP2017167318A

Description

本開示は、議事録生成装置、及び議事録生成プログラムに関する。

近年、音声認識技術が進展し、当該音声認識技術を活かして利便性を向上させるためのシステム作りが種々検討されている。しかし、精度よく音声認識するためには発言者の近くにマイクを設置する必要がある。その一つとして、例えば特許文献１には、会議の各出席者の前に配置した複数のマイクロホンから入力される音声データを逐次比較し、音声レベルが大きいデータを選択して時系列的に音声認識処理を行うことにより、会議の議事録を生成する技術が開示されている。

特開２００４−３０９９６５号公報

しかし、特許文献１に記載の技術では、会議が行われている間、複数のマイクロホンに対してデータ処理を行う装置を接続しておく必要があり、参加人数の変更や配置の変更に対応し難く柔軟性に欠ける。そこで、例えば、ボイスレコーダやマイクロホン付きの情報処理端末といった、入力音声を録音することが可能な装置（以下「音声入力装置」という）を複数用意し、それぞれ個別に録音された音声データを用いて議事録を生成することが考えられる。

しかしながら、個別に録音された複数の音声データを用いる場合、各音声データの時間軸をどのように合わせて音声認識を行うかが問題となる。なぜなら、複数の音声入力装置の間で、録音開始タイミングがずれていたり、計時時刻がずれていたりする可能性があるからである。複数の音声データの時間軸が不適切に対応付けられた状態で従来技術を用いると、例えば発言の順序がずれるなど、誤った内容の議事録が生成されるおそれがある。

したがって、複数の音声入力装置において個別に音声データが生成される場合においても、より正確な議事録を生成することが可能な技術が望まれる。

本開示の目的は、複数の音声入力装置で個別に生成された複数の音声データを用いて、より正確な議事録を生成することを可能とする議事録生成装置、及び議事録生成プログラムを提供することである。

本開示の一態様に係る議事録生成装置は、同一の音空間に配置された複数の音声入力装置で個別に生成された複数の音声データを用いて、前記音空間において行われた会話の議事録を生成する議事録生成装置であって、前記複数の音声データのそれぞれが示す音声波形に基づいて、前記複数の音声データのそれぞれの時間軸を共通の時間軸に対応付ける時間軸調整部と、前記複数の音声データのそれぞれに対して、当該音声データが示す音声レベルに基づいて発話区間を検出する処理を行い、検出された前記発話区間に対して音声認識処理を行う音声認識部と、前記音声認識処理により得られたテキストデータを前記共通の時間軸に沿って並べることにより、前記議事録を生成する議事録生成部と、を備える。

本発明によれば、複数の音声入力装置で個別に生成された複数の音声データを用いて、より正確な議事録を生成することができる。

第１の実施形態に係る議事録生成システムの全体構成の一例を示す図第１の実施形態に係る議事録生成装置の動作フローの一例を示す図第１の実施形態に係る議事録生成装置の動作フローの一例を示す図第１の実施形態に係る時間軸調整部の動作を説明する図第１の実施形態に係る選択部及び合成部の動作を説明する図第１の実施形態に係る生成された議事録画面の一例を示す図第２の実施形態に係る議事録生成システムの全体構成の一例を示す図第２の実施形態に係る議事録生成装置の動作フローを説明する図第２の実施形態に係る選択部及び合成部の動作を説明する図第３の実施形態に係る議事録生成システムの全体構成の一例を示す図

（第１の実施形態）
以下、図１を参照して、本実施形態に係る議事録生成システムの構成について説明する。

図１は、本実施形態に係る議事録生成システムの全体構成の一例を示す図である。

本実施形態に係る議事録生成システムは、複数の音声入力装置ｍ１〜ｍ３、議事録生成装置１０、閲覧・編集端末２０を含んで構成される。そして、議事録生成システムは、会議室等、同一の音空間（同じ音源からの音が到達し得る空間を表す。以下同じ。）に配置された複数の音声入力装置ｍ１〜ｍ３で録音された音声データＤ１〜Ｄ３に基づいて、議事録を生成するものである。尚、同一の音空間は、同じ会議室内に限らず、テレビ会議のように遠隔会議システムによって接続された、複数の離隔した空間を含む。

複数の音声入力装置ｍ１〜ｍ３は、例えば、ボイスレコーダであり、マイクロホンに入力される音声をＡＤ変換して、音声波形を示す音声データを生成する。そして、音声入力装置ｍ１〜ｍ３は、音声データＤ１〜Ｄ３を記憶している。ここでは、複数の音声入力装置ｍ１〜ｍ３は、それぞれ、一つの会議室内の各出席者の前に配置されている。ここでは、複数の音声入力装置ｍ１〜ｍ３は、同様の構成を有するものとして、これらの間で区別しない場合、単に音声入力装置ｍと言う。

議事録生成装置１０は、議事録データを生成するコンピュータである。議事録生成装置１０は、記憶部１１、取得部１２、時間軸調整部１３、選択部１４、合成部１５、音声認識部１６、議事録生成部１７を含んで構成される。

記憶部１１は、ＲＡＭ、ＲＯＭ、レジスタ等のメモリーであり、コンピュータ議事録生成プログラム、複数の音声入力装置ｍ１〜ｍ３から取得した音声データＤ１〜Ｄ３、演算処理の中間データ等を記憶する。なお、記憶部１１が格納する各音声データには、当該音声データの識別情報（当該音声データを生成した音声入力装置ｍの識別情報、あるいは、当該音声入力装置ｍのユーザ（話者）の識別情報）が対応付けられている。

尚、取得部１２、時間軸調整部１３、選択部１４、合成部１５、音声認識部１６、議事録生成部１７は、記憶部１１が格納するコンピュータ議事録生成プログラムを制御部（ＣＰＵ）が実行することによって実現されている（これらの機能を用いた動作フローは、図２を参照して後述する）。

取得部１２は、複数の音声入力装置ｍ１〜ｍ３から音声データＤ１〜Ｄ３を取得して、記憶部１１に格納する。

時間軸調整部１３は、音声データＤ１〜Ｄ３が示す音声波形に基づいて、当該複数の音声入力装置ｍ１〜ｍ３の音声データＤ１〜Ｄ３を共通の時間軸に調整する。

ここで、「共通の時間軸に調整する」とは、音声データＤ１〜Ｄ３のそれぞれが個別に有する時間軸を、共通の時間軸（例えば、実時間軸）に対応付けて、音声データＤ１〜Ｄ３のそれぞれの時間的な相対関係を決定することである。

より具体的には、時間軸調整部１３は、同一の音源（発話者）から同一のタイミングに出力（発話）された音声の音声データ部分を、共通部分として、音声データＤ１〜Ｄ３のそれぞれから抽出する。そして、時間軸調整部１３は、抽出された音声データＤ１〜Ｄ３それぞれの共通部分が、共通の時間軸の同一時刻に対応するように、音声データＤ１〜Ｄ３の時間軸を合わせる。

選択部１４は、共通の時間軸に調整された音声データＤ１ａ〜Ｄ３ａが示す音声レベルに基づいて、発話区間を検出するとともに、同一時刻について複数の音声データから発話区間が検出された場合、これらの発話区間のうち少なくとも一の発話区間を選択する。ここで、発話区間とは、音声データのうち、ある出席者が発話を行ったと推定される音声データ部分である。

合成部１５は、共通の時間軸の時刻毎に、複数の音声データＤ１ａ〜Ｄ３ａのうち選択された発話区間を合成して、合成音声データＤ−ａｌｌを生成する。

音声認識部１６は、生成された合成音声データＤ−ａｌｌを音声認識して（音声データに対する音声認識処理を行って）、当該音声データに対応するテキストデータを生成する。尚、音声認識部１６は、必ずしも合成音声データＤ−ａｌｌに対して音声認識処理を行わなくてもよく、元の音声データＤ１ａ〜Ｄ３ａに対して、少なくとも選択された発話区間を対象とする形で、個別に音声認識処理を行ってもよい。

議事録生成部１７は、選択部１４に選択された発話区間ごとに、テキストデータと基の音声データの識別情報（音声入力端末ｍの識別情報、あるいは、ユーザの識別情報）とを対応づけた情報を、共通の時間軸に沿って並べることにより、議事録データを生成し、閲覧・編集端末２０に表示させる。

閲覧・編集端末２０は、生成された議事録データを議事録生成装置１０から取得して、議事録として表示するコンピュータである。尚、閲覧・編集端末２０は、例えば、ＬＡＮ等の通信回線を介して、議事録生成装置１０とデータの送受信が可能な状態となっているものとする。

以下、図２〜図６を参照して、本実施形態に係る議事録生成装置１０の動作の一例について説明する。

図２、図３は、議事録生成装置１０の動作フローを説明する図である。図４は、時間軸調整部１３の動作を説明する図である。図５は、選択部１４及び合成部１５の動作を説明する図である。

まず、議事録生成装置１０の取得部１２は、複数の音声入力装置ｍ１〜ｍ３から、ＵＳＢ入力端子等を介して、音声データＤ１〜Ｄ３を取得して、記憶部１１に格納する（ステップＳ１）。

次に、時間軸調整部１３は、複数の音声データＤ１〜Ｄ３を共通の時間軸に調整する（ステップＳ２）。

図４（Ａ）に示すように、例えば、複数の音声入力装置ｍ１〜ｍ３の録音開始タイミングがずれていたり、計時時刻がずれていたりすることに起因して、音声データＤ１〜Ｄ３は、録音開始タイミングから同一の音声に対応して現われる音声波形までのタイミングがずれていることがある。そこで、時間軸調整部１３は、図４（Ｂ）に示すように、音声データＤ１〜Ｄ３が示す音声波形の共通する波形部分を基準タイミングＤＴとして、音声データＤ１〜Ｄ３の共通の時間軸に調整する（以下では、共通の時間軸に調整された音声データＤ１〜Ｄ３をＤ１ａ〜Ｄ３ａと表す）。

尚、「共通する波形部分」とは、同一音源から同一タイミングで出力された音声に対応する音声データ部分である可能性が高い波形部分である。同一音源から同一タイミングで出力された音声に対応する波形であっても、その形状や大きさは、音源からの距離その他の条件に応じて音声データごとに異なり得る。したがって、時間軸調整部１３は、音声データの中で特徴的な形状や大きさを有する波形部分（比較しやすい波形部分、例えば最も波高値が高い波形）を抽出し、抽出された各波形部分の振幅を縮小又は拡大して比較する事により、共通する波形部分を検出する。

ここでは、時間軸調整部１３は、音声データＤ１〜Ｄ３それぞれについて、図３に示す次のステップを行って、共通する波形部分を検出して共通の時間軸に調整する。

まず、時間軸調整部１３（第１のタイミング検出部）は、音声データＤ１が基準音を有するか否かを検出する（ステップＳ２ａ）。ここで、基準音とは、例えば、会議開始の際に鳴らされる鐘の音のような波高値が大きく、かつ、波形急峻度が鋭いパルス状の音声波形の音である。すなわち、基準音とは、音声データに、特徴的な形状や大きさを有する波形部分を生じさせ得る音である。基準音としては、周波数が高く、且つ、大きな音であれば、鐘の音以外のものであってもよいのは勿論である。

このように、音声データＤ１の中で、波高値（音声レベル）及び波形急峻度が閾値よりも大きくなる基準音の波形部分ＤＴを検出することによって、基準タイミングＤＴを特定することができる。尚、音声データが示す音声レベルを比較する際には、音源からの距離やマイク感度の差等を考慮して、音声レベルが正規化されたものを用いてもよいのは勿論である。

そこで、時間軸調整部１３は、時系列に音声データの波形をサーチして、音声データＤ１の中で基準音が検出された場合（ステップＳ２ａ：ＹＥＳ）、例えば、当該基準音の波高値の位置を基準タイミングＤＴとする（ステップＳ２ｂ）。時間軸の調整は、基準タイミングＤＴを基準として仮想的な時間軸を設定したり（音声データのヘッダー部分に設定）、音声データＤ１〜Ｄ３の開始時刻を設定したりすることによって行うことができる。

一方、時間軸調整部１３（第２のタイミング検出部）は、時系列に音声データの波形をサーチして、音声データＤ１の中で基準音が検出されない場合（ステップＳ２ａ：ＮＯ）、音声データＤ１〜Ｄ３の中で共通する波形を抽出して、当該共通する波形の位置を基準タイミングＤＴとする（ステップＳ２ｃ）。

この場合、時間軸調整部１３は、例えば、音声データＤ１の中で比較しやすい波形（例えば、最も波高値が高い波形）の振幅のみを縮小又は拡大した波形をテンプレートとして生成する。そして、時間軸調整部１３は、他の音声データＤ２、Ｄ３が示す波形の中から当該テンプレートと類似度が高くなるタイミングを検出し（例えば、テンプレートマッチングによる）、基準タイミングＤＴとする。

つまり、この場合には、会議における発言等の回り込み音声に基づいて、基準タイミングＤＴを特定する。このように、時間軸調整部１３は、音声波形に基づいて複数の音声データを共通の時間軸に調整するため、精緻に（例えば、ミリ秒単位で）時間軸を一致させることを可能にしている。録音した音の中に上記した基準音がある場合には、複数の音声データＤ１〜Ｄ３の波形同士を比較することなく、容易に基準タイミングＤＴを特定することができる。

続いて、選択部１４は、図５に示すように、複数の音声データＤ１ａ〜Ｄ３ａそれぞれについて、音声波形の音声レベルに基づいて発話区間を検出する（ステップＳ３）。ここでは、選択部１４は、音声データＤ１ａ〜Ｄ３ａを時系列に所定区間（例えば、１秒）ごとに区切って、当該区間ごとの音声レベルが所定閾値を超えるか否かを判定するものとする。

そして、選択部１４は、音声レベルが所定閾値を超える割合が所定以上である状態が連続する区間を、一の発話区間と認定する。尚、図５では、区間ｃ１１、ｃ１２、ｃ２１、ｃ２２、ｃ２３、ｃ３１、ｃ３２が発話区間に対応する。このとき、選択部１４は、音声データＤ１ａ〜Ｄ３ａの当該発話区間ｃ１１、ｃ１２、ｃ２１、ｃ２２、ｃ２３、ｃ３１、ｃ３２を、そのタイミング情報とともにレジスタに記憶する。

次に、選択部１４は、共通の時間軸の各時刻において、発話区間が存在するか否かを判定する。そして、選択部１４は、発話区間が１つの音声データにしか存在しない時刻については、かかる音声データを選択する。一方、選択部１４は、発話区間が複数の音声データに存在する時刻については、当該複数の音声データ（例えば、音声データＤ１ａ〜Ｄ３ａ）の間で発話区間の音声レベルを比較して、最も音声レベルが大きい発話区間を選択する（ステップＳ４）。

言い換えると、選択部１４は、複数の音声入力装置ｍ１〜ｍ３のうち、話者の目の前に配置され、最も鮮明に（大きい音量で）音声を録音した音声入力装置ｍ１〜ｍ３を、より積極的に抽出する。そして、選択部１４は、かかる音声抽出により、話者から離れた位置に配置された他の音声入力装置で録音された回り込み音声（不鮮明な音声）を排除する。

尚、図５では、音声データＤ１ａ〜Ｄ３ａの発話区間ｃ１１、ｃ２２、ｃ３２は、選択部１４に選択された発話区間を示し、発話区間ｃ１２、ｃ２３、ｃ３１は、選択されなかった部分を示している。このとき、選択部１４は、発話区間ｃ１１、ｃ１２、ｃ２１、ｃ２２、ｃ２３、ｃ３１、ｃ３２を記憶するデータと対応させて、選択・非選択の情報をレジスタに記憶する。

続いて、合成部１５は、共通の時間軸に調整された音声データＤ１ａ〜Ｄ３ａのうち、選択部１４によって選択された発話区間（音声データ部分）を合成して、合成音声データＤ−ａｌｌを生成する（ステップＳ５）。合成部１５は、例えば、共通の時間軸上で、発話区間ｃ１１、ｃ１２、ｃ２１、ｃ２２、ｃ２３、ｃ３１、ｃ３２のうち選択された発話区間ｃ１１、ｃ２２、ｃ３２を連結することにより、合成音声データＤ−ａｌｌを生成する。このようにして、議事録生成装置１０は、話者の目の前に配置された音声入力装置ｍ１〜ｍ３で録音された最も鮮明な音声の合成音声データＤ−ａｌｌを生成する。

尚、選択された複数の発話区間の間に、いずれの音声データからも発話音声が検出されない区間（以下「無発話区間」という）が存在し得る。合成部１５は、共通の時間軸のうち、無発話区間に、つまり、隣り合う複数の発話区間の間に、無音の音声データ、あるいは、いずれかの音声データの対応する区間の音声データ部分を挿入して、合成音声データＤ−ａｌｌを生成してもよい。

そして、音声認識部１６は、合成された音声データＤ−ａｌｌを音声認識して、当該音声データＤ−ａｌｌの音声波形に対応するテキストデータを生成する（ステップＳ６）。かかるテキストデータは、つまり、音声データＤ−ａｌｌに含まれる発話音声をテキスト化したものである。

音声認識部１６は、例えば、次のようにして、音声認識処理を行う。まず、音声認識部１６は、音声データＤ−ａｌｌの発話区間のそれぞれに対してフレーム化処理を行い、フレームごとにフーリエ解析を含む所定の処理を行って、音声特徴量（例えば、Mel-Frequency Cepstrum Coefficients:MFCC）を抽出する。次に、音声認識部１６は、発話区間における音声特徴量の時系列データに基づき、記憶部１１に予め格納された音響モデル、辞書、及び言語モデルを参照して、音声パターンを認識して、対応するテキストデータを生成する。

尚、音響モデルとは、音声の特徴量と発音記号との確率的な対応付けをデータ化したものである。又、辞書は単語の表記と読みを記述したものである。又、言語モデルは、辞書に記述された単語のそれぞれについて、大量のテキストデータから計算した出現確率や他の単語との接続確率をデータ化したものである。

そして、音声認識部１６は、生成されたテキストデータを、発話区間のタイミング情報（例えば、開始時刻および終了時刻）と対応付けて記憶部１１に格納する。

次に、議事録生成部１７は、共通の時間軸上で、選択された発話区間のテキストデータと当該発話区間が属する音声データの識別情報とを対応づけて、議事録データを生成する（ステップＳ７）。つまり、議事録生成部１７は、選択部１４が複数の音声入力装置ｍ１〜ｍ３のいずれの音声データの発話区間を選択したかに応じて、発話区間ごとに識別情報（音声入力装置ｍのＩＤ、ユーザＩＤ等）を対応づけていく。又、議事録生成部１７は、当該議事録データを閲覧・編集端末２０に送信して、編集可能に表示させる。尚、議事録生成部１７は、閲覧・編集端末２０から編集要求を受信した場合、議事録データの対応するテキストデータを更新する。

そして、議事録生成部１７は、生成された議事録データに基づき、当該議事録データの内容を示す議事録画面を生成し、閲覧・編集端末２０に表示させる。

図６は、議事録画面の一例を示す図である。

図６に示すように、議事録画面には、話者Ｔ１、発言時刻Ｔ２、音声認識結果のテキストデータＴ３、編集データＴ４、編集中データＴ５、再生アイコンＴ６、音声波形表示Ｔ７の表示領域が含まれる。

話者Ｔ１、発言時刻Ｔ２、音声認識結果のテキストデータＴ３は、発話区間ごとに対応づけて記憶されたデータを時系列に表示するものである。尚、発言時刻Ｔ２は、共通の時間軸上で表され、例えば、音声入力装置ｍ１に記憶された録音開始時刻を基準として、当該録音開始時刻からの経過時間によって発話区間ごとに算出されたものである。

編集データＴ４は、音声認識結果のテキストデータＴ３を編集して記憶されたデータを表示するものである。編集中データＴ５は、音声認識結果のテキストデータＴ３を編集している際に、ユーザに入力された内容を反映させたものである。編集中データＴ５の表示領域は、テキスト入力ボックスであり、ユーザが音声認識結果のテキストデータＴ３を編集可能な状態で表示される。尚、図中では、Ｔ５ａの音声認識結果のテキストデータが編集中であることを表す。そして、編集された状態で、確定アイコン（図示せず）が押されると、編集データＴ４が更新される。

再生アイコンＴ６は、合成音声データＤ−ａｌｌを再生するためのアイコンであり、ユーザに選択操作された場合、これに応じて合成音声データＤ−ａｌｌを再生する。尚、音声波形表示Ｔ７の表示領域には、再生アイコンＴ６によって現在再生中の音声データの音声波形が表示される。

このような議事録画面が表示されることにより、オペレータは、自動で生成された議事録データの内容やその正確性を容易に確認することができ、更に、誤りがあった場合に、これを容易に修正することができる。

以上のように、本実施形態に係る議事録生成システムは、同一の音空間に配置された複数の音声入力装置で個別に生成された複数の音声データを用いて、上記音空間において行われた会話の議事録を生成する議事録生成装置１０を有している。議事録生成装置１０は、複数の音声データのそれぞれが示す音声波形に基づいて、複数の音声データのそれぞれの時間軸を共通の時間軸に対応付ける時間軸調整部１３を備えている。また、議事録生成装置１０は、複数の音声データのそれぞれに対して、当該音声データが示す音声レベルに基づいて発話区間を検出する処理を行い、検出された発話区間に対して音声認識処理を行う音声認識部１６を備えている。更に、議事録生成装置１０は、音声認識処理により得られたテキストデータを共通の時間軸に沿って並べることにより、議事録を生成する議事録生成部１７を備えている。

すなわち、議事録生成装置１０は、時間軸調整部１３において、波形に基づいて当該複数の音声データの間で時間軸の調整を行うことによって、音声認識すべき対象の音声データを抽出する際に、当該複数の音声データを共通の時間軸上で用いることを可能にしている。そうすることで、選択部１４は、発話区間ごとに、当該複数の音声データの中で用いる音声データを適切に選択することが可能となり、鮮明に録音された音声データのみを用いて議事録を生成することができる。又、議事録生成部１７は、選択部１４に当該複数の音声データのうちいずれの音声データが選択されたかによって、話者の特定をすることができる。

したがって、議事録生成装置１０は、複数の音声入力装置ｍ１〜ｍ３で個別に生成された音声データＤ１〜Ｄ３を用いて、正確な議事録を生成することができる。

加えて、音声認識部１６は、選択部１４に選択された鮮明に録音された音声データのみを用いて音声認識することができる。したがって、議事録生成装置１０は、回り込み音声を含むすべての音声データを用いる場合に比較して、議事録生成装置１０の処理負荷、処理時間を大きく軽減することができる。

（第２の実施形態）
次に、図７〜図９を参照して、第２の実施形態に係る議事録生成システムについて説明する。

図７は、本実施形態に係る議事録生成システムの構成を示す図である。図８は、本実施形態に係る議事録生成装置１０ａの動作フローを説明する図である。図９は、本実施形態に係る選択部１４ａ及び合成部１５ａの動作を説明する図である。

本実施形態では、同じタイミングに発話する話者が複数人いる場合も想定して、同一の時刻について、複数の音声入力装置（音声データ）の発話区間が選択され得る点で、第１の実施形態と相違する。尚、第１の実施形態と共通する構成については、説明を省略する（以下、他の実施形態についても同様）。

選択部１４ａは、上記した（ステップＳ３）の工程において、共通の時間軸上で発話区間の検出を行った後、同一時刻において複数の音声データの発話区間の音声レベルが所定の閾値を超える場合、複数の発話区間を選択する（ステップＳ４ａ）。

図９では、説明の便宜のため、図５に示した発話区間ｃ１１と同じタイミングで、他の話者が存在している場合を示しており、選択部１４ａが発話区間ｃ１１と発話区間ｃ２１とをともに選択した状態を示している。

選択部１４ａは、それらの発話区間ｃ１１、ｃ２１をともに選択してレジスタに格納する。つまり、このとき、レジスタには、（ステップＳ３）で検出された音声データＤ１〜Ｄ３の当該発話区間ｃ１１、ｃ１２、ｃ２１、ｃ２２、ｃ２３、ｃ３１、ｃ３２のタイミング情報と、これらのうち、発話区間ｃ１１、ｃ２１、ｃ２２、ｃ３２が選択されたことが記憶される。

尚、この際、同じ音声について音声認識してしまう状態を排除するため、選択部１４ａは、発話区間ｃ２１の波形と、発話区間ｃ１１の波形との類似度を算出して、類似していると判断される場合には、一方を音声認識しなくてもよい。

次に、合成部１５ａは、共通の時間軸に調整された音声データＤ１ａ〜Ｄ３ａのうち、選択部１４ａに選択された発話区間の波形を合成して、合成音声データＤ−ａｌｌを生成する（ステップＳ５ａ）。

尚、合成部１５ａは、選択部１４ａが同一時刻について複数の発話区間を選択している場合、それら複数の発話区間をすべて合成する。ここでは、合成部１５ａは、同じ発話区間にあたる音声データＤ１ａの発話区間ｃ１１、音声データＤ２ａのｃ２１の両方を合成する。そうすることで、議事録生成装置１０ａは、議事録音声データを生成する。尚、合成部１５ａは、例えば、合成対象の波形を加算することによって、同じ発話区間の波形を合成する。

続いて、音声識別部１６ａは、合成された音声データＤ−ａｌｌが示す波形を音声認識して、当該波形に対応するテキストデータを生成する（ステップＳ６ａ）。但し、音声識別部１６ａは、複数の音声データの間で選択された発話区間が重複している場合、元の音声データＤ１ａ〜Ｄ３ａからそれらの発話区間を別個に抽出して音声認識して、別個にテキストデータを生成する。

生成されたテキストデータは、ともに発話区間のタイミング情報（例えば、時刻）と対応付けて記憶部１１に格納される。そうすることで、同じタイミングに発話する話者が複数人いる場合も、それぞれの発話内容を別個にテキストデータとして生成することができる。尚、同じタイミングで複数の発話区間が選択されている場合、当該発話区間における、合成音声データＤ−ａｌｌに基づいてなされた音声認識結果は、不鮮明なデータとなっている。そのため、音声識別部１６ａは、当該発話区間を、音声認識の対象としなくてもよい。

そして、議事録生成部１７ａは、共通の時間軸上で、当該発話区間のテキストデータと選択部１４に選択された音声データの識別情報を対応づけて議事録データを生成する（ステップＳ７ａ）。このとき、議事録生成部１７ａは、同じタイミングで発話する話者が複数人いる場合には、当該発話内容に対応するテキストデータをともに生成する。

議事録生成部１７ａは、例えば、上記した図６に示す議事録画面において、発言時刻Ｔ２として同じ時刻を付して、それぞれの話者Ｔ１及び音声認識結果のテキストデータＴ３を表示されるように、議事録データを生成する。

以上のように、本実施形態に係る議事録生成システムによれば、同じタイミングで複数の話者がいる場合であっても、それぞれの発話内容を記録した正確な議事録を生成することが可能である。

（第３の実施形態）
次に、図１０を参照して、第３の実施形態に係る議事録生成システムについて説明する。

図１０は、本実施形態に係る議事録生成システムの構成を示す図である。本実施形態では、音声認識部１６ｂが、話者モデルとの照合によって各発話区間における話者を識別する点で、第１の実施形態と相違する。

会議の席において、第１の実施形態のように、音声入力装置ｍが各出席者の目の前に配置されておらず、一の音声入力装置ｍに対して複数の話者の音声が入力されるような場合がある。このような場合、議事録は、複数の話者のうちのいずれの話者の発言か区別できない状態で生成されてしまうことになる。

すなわち、音声入力装置ｍの識別によってのみでは、必ずしも各発話の話者を識別することができず、その結果、誤った議事録データが生成されるおそれがある。

そこで、本実施形態では、音声認識部１６ｂが、一連の音声認識処理の中で、当該発話区間における話者を識別する。

音声認識部１６ｂは、上記したとおり、発話区間の音声特徴量の時系列データを抽出して、記憶部１１に予め格納された音響モデル、辞書、及び言語モデルを参照して、音声パターンを認識する。その際、予め、会議の出席者等の話者モデル（話者ごとの音響モデル）を記憶しておくことによって、音声認識部１６ｂは、一連の音声認識処理の中で、当該発話区間における話者を識別することができる。

このように、音声認識部１６ｂは、話者モデルを用いることによって、波形に含まれる音声認識対象の話者の発した音声以外の回り込み音声を除去したり、複数の話者のうち、いずれの話者が発生した音声かを特定したりすることができる。そして、音声認識部１６ｂは、波形に含まれる音声認識対象の話者の発した音声以外の回り込み音声を除去してから対応するテキストデータを生成する。又、音声認識部１６ｂは、波形に含まれる話者を特定して、選択部１４に選択された音声データの識別情報として識別した話者の識別情報を格納する。

又、議事録生成部１７は、発話区間ごとにテキストデータと、音声認識部１６ｂに識別された当該話者とを対応付けて表示する。

以上のように、本実施形態に係る議事録生成システムによれば、一の音声入力装置ｍに対して複数の話者の音声が入力されるような場合であっても、話者を特定し、より正確な議事録を生成することが可能である。

（その他の実施形態）
本発明は、上記実施形態に限らず、種々に変形態様が考えられる。

上記実施形態では、選択部１４の構成の一例として、音声データＤ１〜Ｄ３をフレーム化して、当該フレーム内における音声レベルが所定閾値を超える割合で、発話区間を検出するとともに、音声レベルが最大の音声データを選択する態様を示した。しかし、選択部１４は、複数の音声データＤ１〜Ｄ３から鮮明な音声データを選択するものであれば、その選択処理は、種々に変更しうる。

例えば、発話区間を検出する際には、信号の強さが予め決められたレベルを一定時間以上連続して超えている場合、発話区間と判定するものとしてもよい。又、音声レベルが同程度の音声データが複数ある場合には、回り込み音声等に起因するノイズ成分が少ない音声データを選択するものとしてもよい。

又、上記実施形態では、議事録生成システムの構成の一例として、議事録生成装置１０にコンピュータ等を用い、音声入力装置ｍにボイスレコーダ等を用いる態様を示した。しかし、これら構成は、一例に過ぎず、同様の機能を実現できれば、種々の電子機器であってよい。

例えば、議事録生成装置１０と音声入力装置ｍが、ともにスマートフォン等によって構成されるものであってもよい。又、同様に、議事録生成装置１０の一部又は全部の機能が、音声入力装置ｍに組み込まれる構成としてもよい。他方、議事録生成装置１０の制御部の機能（時間軸調整部１３、選択部１４、合成部１５、音声認識部１６、議事録生成部１７）を複数のコンピュータに分散させて、議事録生成装置１０を構成してもよい。

（本開示のまとめ）
本明細書および添付図面の記載によって、少なくとも以下の事項が明らかとなる。

本開示に係る議事録生成装置は、同一の音空間に配置された複数の音声入力装置で個別に生成された複数の音声データを用いて、前記音空間において行われた会話の議事録を生成する議事録生成装置であって、前記複数の音声データのそれぞれが示す音声波形に基づいて、前記複数の音声データのそれぞれの時間軸を共通の時間軸に対応付ける時間軸調整部と、前記複数の音声データのそれぞれに対して、当該音声データが示す音声レベルに基づいて発話区間を検出する処理を行い、検出された前記発話区間に対して音声認識処理を行う音声認識部と、前記音声認識処理により得られたテキストデータを前記共通の時間軸に沿って並べることにより、前記議事録を生成する議事録生成部と、を備える。

また、上記議事録生成装置は、前記共通の時間軸上の同一時刻において１つの発話音声のみが検出されたとき、当該１つの発話区間を選択し、前記共通の時間軸上の同一時刻において複数の発話音声が検出されたとき、当該複数の発話区間を比較することにより当該複数の発話区間の中から１つを選択する選択部、を更に有し、前記議事録生成部は、選択された前記発話区間の前記テキストデータに基づいて、前記議事録を生成してもよい。

また、上記議事録生成装置において、前記時間軸調整部は、前記複数の音声データから、同一の音源から同一のタイミングで出力された音声に対応する共通部分を検出し、検出された前記共通部分が前記共通の時間軸上で同一の位置となるように、前記複数の音声データの時間軸を前記共通の時間軸に対応付けてもよい。

また、上記議事録生成装置において、前記時間軸調整部は、前記複数の音声データのそれぞれから、前記音声データが示す波形の波高値が閾値よりも大きい部分を、前記共通部分として検出してもよい。

また、上記議事録生成装置において、前記時間軸調整部は、第１の前記音声データに含まれる音声波形を、第２の前記音声データで探索することにより、前記共通部分を検出してもよい。

また、上記議事録生成装置は、複数の前記音声データから検出された前記発話区間を、前記共通の時間軸において合成して合成音声データを生成する合成部を更に備え、前記音声認識部は、前記合成音声データに対して、音声認識処理を行ってもよい。

また、上記議事録生成装置において、前記議事録生成部は、前記発話区間ごとに、前記テキストデータと基の前記音声データの識別情報とを対応づけて表示する、議事録画面を生成して出力してもよい。

また、上記議事録生成装置において、前記音声認識部は、話者モデルに基づいて、前記音声データが示す波形から音声認識の対象となる話者を特定して前記音声認識を行い、前記議事録生成部は、特定された話者の識別情報を前記テキストデータに対応付けて表示する、前記議事録画面を生成してもよい。

本開示に係る議事録生成プログラムは、同一の音空間に配置された複数の音声入力装置で個別に生成された複数の音声データを用いて、前記音空間において行われた会話の議事録を生成するための議事録生成プログラムであって、コンピュータに、前記複数の音声データのそれぞれが示す音声波形に基づいて、前記複数の音声データのそれぞれの時間軸を共通の時間軸に対応付ける処理と、前記複数の音声データのそれぞれに対して、当該音声データが示す音声レベルに基づいて発話区間を検出する処理を行い、検出された前記発話区間に対して音声認識処理を行う処理と、前記音声認識処理により得られたテキストデータを前記共通の時間軸に沿って並べることにより、前記議事録を生成する処理と、を実行させる。

以上、本発明の具体例を詳細に説明したが、これらは例示にすぎず、請求の範囲を限定するものではない。請求の範囲に記載の技術には、以上に例示した具体例を様々に変形、変更したものが含まれる。

本開示に係る議事録生成装置および議事録生成プログラムは、複数の音声入力装置で個別に生成された複数の音声データを用いて、より正確な議事録を生成することを可能とする議事録生成装置および議事録生成プログラムとして、好適に使用することができる。

ｍ１〜ｍ３音声入力装置
Ｄ１〜Ｄ３音声データ
１０議事録生成装置
１１記憶部
１２取得部
１３時間軸調整部
１４選択部
１５合成部
１６音声認識部
１７議事録生成部
２０閲覧・編集端末

Claims

同一の音空間に配置された複数の音声入力装置で個別に生成された複数の音声データを用いて、前記音空間において行われた会話の議事録を生成する議事録生成装置であって、
前記複数の音声データのそれぞれが示す音声波形に基づいて、前記複数の音声データのそれぞれの時間軸を共通の時間軸に対応付ける時間軸調整部と、
前記複数の音声データのそれぞれに対して、当該音声データが示す音声レベルに基づいて発話区間を検出する選択部と、
前記複数の音声データのそれぞれにおいて検出された前記発話区間に対して音声認識処理を行う音声認識部と、
前記音声認識処理により得られたテキストデータを前記共通の時間軸に沿って並べることにより、前記議事録を生成する議事録生成部と、を備え、
前記時間軸調整部は、前記複数の音声データから、同一の音源から同一のタイミングで出力された音声に対応する共通部分を検出し、検出された前記共通部分が前記共通の時間軸上で同一の位置となるように、前記複数の音声データの時間軸を前記共通の時間軸に対応付ける、
議事録生成装置。
同一の音空間に配置された複数の音声入力装置で個別に生成された複数の音声データを用いて、前記音空間において行われた会話の議事録を生成する議事録生成装置であって、
前記複数の音声データのそれぞれが示す音声波形に基づいて、前記複数の音声データのそれぞれの時間軸を共通の時間軸に対応付ける時間軸調整部と、
前記複数の音声データのそれぞれに対して、当該音声データが示す音声レベルに基づいて発話区間を検出する選択部と、
前記複数の音声データのそれぞれにおいて検出された前記発話区間を、前記共通の時間軸において合成して合成音声データを生成する合成部と、
前記合成音声データの前記発話区間に対して音声認識処理を行う音声認識部と、
前記音声認識処理により得られたテキストデータを前記共通の時間軸に沿って並べることにより、前記議事録を生成する議事録生成部と、
を備える、
議事録生成装置。
前記選択部は、
前記共通の時間軸上の同一時刻において１つの発話音声のみが検出されたとき、当該１つの発話区間を選択し、前記共通の時間軸上の同一時刻において複数の発話音声が検出されたとき、当該複数の発話区間を比較することにより当該複数の発話区間の中から１つを選択し、
前記議事録生成部は、
選択された前記発話区間の前記テキストデータに基づいて、前記議事録を生成する、
請求項１又は２に記載の議事録生成装置。
前記時間軸調整部は、
前記複数の音声データのそれぞれから、前記音声データが示す波形の波高値が閾値よりも大きい部分を、前記共通部分として検出する、
請求項１に記載の議事録生成装置。
前記時間軸調整部は、
第１の前記音声データに含まれる音声波形を、第２の前記音声データで探索することにより、前記共通部分を検出する、
請求項１に記載の議事録生成装置。
前記議事録生成部は、
前記発話区間ごとに、前記テキストデータと元の前記音声データの識別情報とを対応づけて表示する、議事録画面を生成して出力する、
請求項１又は２に記載の議事録生成装置。
前記音声認識部は、
話者モデルに基づいて、前記音声データが示す波形から音声認識の対象となる話者を特定して前記音声認識を行い、
前記議事録生成部は、
特定された話者の識別情報を前記テキストデータに対応付けて表示する、前記議事録画面を生成する、
請求項６に記載の議事録生成装置。
同一の音空間に配置された複数の音声入力装置で個別に生成された複数の音声データを用いて、前記音空間において行われた会話の議事録を生成するための議事録生成プログラムであって、
コンピュータに、
前記複数の音声データのそれぞれが示す音声波形に基づいて、前記複数の音声データのそれぞれの時間軸を共通の時間軸に対応付ける第１処理と、
前記複数の音声データのそれぞれに対して、当該音声データが示す音声レベルに基づいて発話区間を検出する第２処理と、
前記複数の音声データのそれぞれにおいて検出された前記発話区間に対して音声認識処理を行う第３処理と、
前記音声認識処理により得られたテキストデータを前記共通の時間軸に沿って並べることにより、前記議事録を生成する第４処理と、を実行させる、
議事録生成プログラムであって、
前記第１処理では、前記複数の音声データから、同一の音源から同一のタイミングで出力された音声に対応する共通部分を検出し、検出された前記共通部分が前記共通の時間軸上で同一の位置となるように、前記複数の音声データの時間軸を前記共通の時間軸に対応付ける、
議事録生成プログラム。
同一の音空間に配置された複数の音声入力装置で個別に生成された複数の音声データを用いて、前記音空間において行われた会話の議事録を生成するための議事録生成プログラムであって、
コンピュータに、
前記複数の音声データのそれぞれが示す音声波形に基づいて、前記複数の音声データのそれぞれの時間軸を共通の時間軸に対応付ける第１処理と、
前記複数の音声データのそれぞれに対して、当該音声データが示す音声レベルに基づいて発話区間を検出する第２処理と、
前記複数の音声データのそれぞれにおいて検出された前記発話区間を、前記共通の時間軸において合成して合成音声データを生成する第３処理と、
前記合成音声データの前記発話区間に対して音声認識処理を行う第４処理と、
前記音声認識処理により得られたテキストデータを前記共通の時間軸に沿って並べることにより、前記議事録を生成する第５処理と、
を実行させる、
議事録生成プログラム。