JP7088645B2

JP7088645B2 - データ変換装置

Info

Publication number: JP7088645B2
Application number: JP2017179920A
Authority: JP
Inventors: 知優志田
Original assignee: Nomura Research Institute Ltd
Current assignee: Nomura Research Institute Ltd
Priority date: 2017-09-20
Filing date: 2017-09-20
Publication date: 2022-06-21
Anticipated expiration: 2037-09-20
Also published as: JP2019056746A

Description

本発明は、データ変換装置に関する。

従来、人が話す音声等を含む音データを、テキストデータに変換する技術が研究されている。音データをテキストデータに変換する技術によれば、ある言語を用いて行われた会話やスピーチを録音して、その内容を文字に変換することができる。このような技術は、議事録の自動作成や翻訳の前処理に応用されている。

議事録の自動作成に関して、下記特許文献１には、複数の話者の音声を符号化した音声データを文字情報に変換して議事録を作成する議事録自動作成システムであって、文字情報への変換を終えた音声データの一部分が全体に占める割合である変換進捗度と仕上がり希望日から処理優先度をタスク毎に算出し、変換進捗度及び処理優先度に基づいて少なくとも１つの特定分野辞書とその収録語彙数を選択することで議事録の精度を調節する議事録自動作成システムが記載されている。

特許第４７０３３８５号

近年、音データからテキストデータへの変換を高精度で行うことのできる言語モデルがクラウドサービスの形態で提供されるようになり、音データをテキストデータに変換する技術が容易に利用できるようになりつつある。そのようなサービスでは、インターネットを介して音データの入力を受け付けて、サーバに記憶された言語モデルによって、入力された音データに基づいてテキストデータを生成し、得られたテキストデータを、インターネットを介してクライアントに返送する。

音データをテキストデータに変換するクラウドサービスは、利便性が高い反面、任意のユーザによって利用可能な場合があるため、秘密情報を含む音データをテキストデータに変換したい場合には利用しづらいことがあった。例えば、会議において外部に流出してはならない会話が行われた場合、会議の録音をクラウドサービスによってテキストデータに変換することは、セキュリティの観点から推奨されないことがある。

そこで、本発明は、利便性とセキュリティを両立させて、音データをテキストデータに変換することのできるデータ変換装置を提供することを目的とする。

本発明の一態様に係るデータ変換装置は、入力される一連の音に所定の音が含まれているか否かを判定する判定部と、少なくとも、一連の音のうち所定の音に基づいて特定される区間の音のデータを記憶する記憶部と、判定部により一連の音に所定の音が含まれていると判定された場合に、音データに基づいてテキストデータを生成するサーバに対して、区間の音のデータを送信する送信部と、サーバから、区間の音のデータに基づいて生成されたテキストデータを受信する受信部と、を備える。

この態様によれば、所定の音に基づいて特定される区間の音のデータをサーバに送信し、入力される音のデータ全体をサーバに送信しないことで、外部に流出してはならない音が入力された場合であっても、テキストデータに変換する区間を限定することができ、クラウドサービスの利便性とセキュリティを両立させて、音データをテキストデータに変換することができる。

また、上記態様において、記憶部は、判定部により一連の音に所定の音が含まれていると判定された場合に、所定の音より後に入力される一連の音の少なくとも一部を区間の音のデータとして記憶してもよい。

この態様によれば、所定の音より後に入力される一連の音の少なくとも一部を区間の音のデータとして記憶することで、記憶部に記憶すべき音データの容量を少なくすることができ、記憶された音のデータに所定の音が含まれているか否かを処理する必要が無いため、演算負荷を減らすことができる。

また、上記態様において、記憶部は、一連の音のデータを記憶し、記憶部に記憶された一連の音のデータから、所定の音より後に入力された一連の音の少なくとも一部を区間の音のデータとして抽出する抽出部をさらに備えてもよい。

この態様によれば、入力される一連の音のデータを記憶し、所定の音より後に入力された一連の音の少なくとも一部を抽出することで、抽出された区間の音のデータ以外のデータであっても事後的に選択してサーバに送信し、テキストに変換することができるようになる。

また、上記態様において、区間の音のデータを、複数の音データに分割する分割部をさらに備え、送信部は、複数の音データの順序を入れ替えて、複数の音データをサーバに送信し、受信部は、複数の音データに基づいて生成された複数のテキストデータを受信し、送信部による複数の音データの順序の入れ替えに基づいて、複数のテキストデータを一つのテキストデータに合成する合成部をさらに備えてもよい。

この態様によれば、所定の音に基づいて特定された区間の音のデータを、複数の音データに分割して、その順序を入れ替えてサーバに送信することで、送信した音データの内容が第三者に読み取られることを防止することができる。

また、上記態様において、送信部は、複数の音データを、音データに基づいてテキストデータを生成する複数のサーバに分配して送信してもよい。

この態様によれば、所定の音に基づいて特定された区間の音のデータを、複数の音データに分割して、複数のサーバに分配して送信することで、それぞれのサーバに送信した音データの内容から全体の内容を再現することが困難となり、音データの内容が第三者に読み取られるおそれをさらに低減させることができる。

本発明によれば、利便性とセキュリティを両立させて、音データをテキストデータに変換することのできるデータ変換装置を提供することができる。

本発明の実施形態に係るデータ変換装置のネットワーク構成を示す図である。本実施形態に係るデータ変換装置の物理構成を示す図である。本実施形態に係るデータ変換装置の機能ブロックを示す図である。本実施形態に係るデータ変換装置により特定される音データの区間の一例を示す図である。本実施形態に係るデータ変換装置により実行される第１処理のフローチャートである。本実施形態に係るデータ変換装置により更新された議事録の一例を示す図である。本実施形態に係るデータ変換装置により実行される第２処理のフローチャートである。本実施形態に係るデータ変換装置により特定される音データの区間の他の例を示す図である。本実施形態に係るデータ変換装置により音データの区間を指定する例を示す図である。

添付図面を参照して、本発明の実施形態について説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。

図１は、本発明の実施形態に係るデータ変換装置１０のネットワーク構成を示す図である。データ変換装置１０は、マイクロフォン等の入力部によって入力される一連の音から所定の区間の音のデータを切り出して、当該区間の音のデータを、通信ネットワークＮを介して第１音声認識サーバ２０、第２音声認識サーバ３０及び第３音声認識サーバ４０の少なくともいずれかに送信する。第１音声認識サーバ２０、第２音声認識サーバ３０及び第３音声認識サーバ４０は、受信した音データに基づいてテキストデータを生成するサーバであり、生成したテキストデータをデータ変換装置１０に返送する。

ここで、通信ネットワークＮは、有線又は無線の通信網であり、例えばインターネットであってよい。第１音声認識サーバ２０、第２音声認識サーバ３０及び第３音声認識サーバ４０は、通信ネットワークＮを介して、いわゆるパブリッククラウドの形態で、音声データをテキストデータに変換するサービスを提供するサーバであってよい。すなわち、第１音声認識サーバ２０、第２音声認識サーバ３０及び第３音声認識サーバ４０は、利用者を限定せずに、音声データをテキストデータに変換するサービスを提供するサーバであってよい。なお、本例では、仮に３台のサーバが通信ネットワークＮに接続されている場合を示しているが、パブリッククラウドとして利用可能な音声認識サーバの台数は３台に限られず、任意である。また、データ変換装置１０は、パブリッククラウドのみならず、プライベートクラウドの形態（すなわち利用者を限定する形態）で、音声データをテキストデータに変換するサービスを提供するサーバに接続されてもよい。

データ変換装置１０は、例えば、会議において録音された音のデータから、議事録として記録すべき内容が含まれる区間の音のデータを切り出す。データ変換装置１０は、会議において録音された音のデータ全体を第１音声認識サーバ２０、第２音声認識サーバ３０及び第３音声認識サーバ４０に送信することはせず、議事録として記録すべき内容が含まれる区間の音のデータを切り出して、当該区間の音のデータを第１音声認識サーバ２０、第２音声認識サーバ３０及び第３音声認識サーバ４０の少なくともいずれかに送信する。このように、会議において録音された音のデータ全体をサーバに送信せず、テキスト化すべき区間の音のデータを切り出してサーバに送信することで、会議において外部に流出してはならない会話が行われた場合であっても、テキストデータに変換する区間を限定することができ、クラウドサービスの利便性とセキュリティを両立させて、音データをテキストデータに変換することができる。

図２は、本発明の実施形態に係るデータ変換装置１０の物理的な構成を示す図である。データ変換装置１０は、ハードウェアプロセッサに相当するＣＰＵ（Central Processing Unit）１０ａと、メモリに相当するＲＡＭ（Random Access Memory）１０ｂと、メモリに相当するＲＯＭ（Read only Memory）１０ｃと、通信部１０ｄと、入力部１０ｅと、表示部１０ｆとを有する。これら各構成は、バスを介して相互にデータ送受信可能に接続される。なお、本例ではデータ変換装置１０が一台のコンピュータで構成される場合について説明するが、データ変換装置１０は、複数のコンピュータを用いて実現されてもよい。

ＣＰＵ１０ａは、ＲＡＭ１０ｂ又はＲＯＭ１０ｃに記憶されたプログラムの実行に関する制御やデータの演算、加工を行う制御部である。ＣＰＵ１０ａは、音データからテキストデータへの変換の制御に関するプログラム（データ変換プログラム）を実行する演算装置である。ＣＰＵ１０ａは、入力部１０ｅや通信部１０ｄから種々の入力データを受け取り、入力データの演算結果を表示部１０ｆに表示したり、ＲＡＭ１０ｂやＲＯＭ１０ｃに格納したりする。

ＲＡＭ１０ｂは、データの書き換えが可能な記憶部であり、例えば半導体記憶素子で構成される。ＲＡＭ１０ｂは、ＣＰＵ１０ａが実行するアプリケーション等のプログラムやデータを記憶する。

ＲＯＭ１０ｃは、データの読み出しのみが可能な記憶部であり、例えば半導体記憶素子で構成される。ＲＯＭ１０ｃは、例えばファームウェア等のプログラムやデータを記憶する。

通信部１０ｄは、データ変換装置１０を通信ネットワークＮに接続するインターフェースであり、例えば、有線又は無線回線のデータ伝送路により構成されたＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）、インターネット等の通信ネットワークＮに接続される。

入力部１０ｅは、ユーザからデータの入力を受け付けるものであり、例えば、マイクロフォン、キーボード、マウス及びタッチパネルを含む。

表示部１０ｆは、ＣＰＵ１０ａによる演算結果を視覚的に表示するものであり、例えば、ＬＣＤ（Liquid Crystal Display）により構成される。

データ変換プログラムは、ＲＡＭ１０ｂやＲＯＭ１０ｃ等のコンピュータによって読み取り可能な記憶媒体に記憶されて提供されてもよいし、通信部１０ｄにより接続される通信ネットワークを介して提供されてもよい。データ変換装置１０では、ＣＰＵ１０ａがデータ変換プログラムを実行することにより、次図を用いて説明する様々な機能が実現される。なお、これらの物理的な構成は例示であって、必ずしも独立した構成でなくてもよい。例えば、データ変換装置１０は、ＣＰＵ１０ａとＲＡＭ１０ｂやＲＯＭ１０ｃが一体化したＬＳＩ（Large-Scale Integration）を備えていてもよい。

図３は、本実施形態に係るデータ変換装置１０の機能ブロックを示す図である。データ変換装置１０は、判定部１１、音データ記憶部１２、送信部１３、抽出部１４、分割部１５、受信部１６、合成部１７、修正部１８及び議事録記憶部１９を備える。なお、本例では、これらの機能部が一台のコンピュータで実現される場合について説明するが、これらの機能部は、複数のコンピュータによって実現されていてもよい。

判定部１１は、入力部１０ｅにより入力される一連の音に所定の音が含まれているか否かを判定する。ここで、所定の音は、予め設定された音であればどのような音であってもよいが、例えば、物理的なベルを鳴らした音であったり、電子的に合成された音であったりしてよい。判定部１１は、所定の音を認識できるように予め学習されたＲＮＮ（Recurrent Neural Network）等の学習済みモデルであってよい。会議においてデータ変換装置１０を利用するユーザは、議事録に記録すべき発言が行われる前に、所定の音を鳴らして、その後に発言される内容をテキスト化するように指定することができる。

また、所定の音は、所定の規則に従った発言であってもよい。例えば、判定部１１は、約２秒間の沈黙に続いて「議事録お願いします」と発言されたか否かによって、所定の音が含まれているか否かを判定してもよい。このような場合も、判定部１１は、所定の音を認識できるように予め学習されたＲＮＮ等であってよい。そして、所定の音は、ユーザ毎に設定できる構成であってもよく、話者別若しくはシステム利用者別に所定の音を設定でき、各ユーザが任意のタイミングで議事録対象を特定する動作を行うことができる構成であってもよい。また、後説する議事録に音声認識結果後のテキストを挿入する例においても、ユーザ毎に議事録を記憶し、所定の音を発話したユーザ用に音声認識を実施して対象ユーザ用の音声認識結果を対象ユーザ用の議事録に挿入する構成にすることもでき、ユーザ個別の議事録を個別に保有することとしてもよい。そして、議事録担当者のみが自己が保有する議事録を編集した後に、共有用に当該議事録をファイルサーバにアップロードすることも可能である。

音データ記憶部１２は、少なくとも、入力部１０ｅにより入力される一連の音のうち所定の音に基づいて特定される区間の音のデータを記憶する。音データ記憶部１２は、判定部１１により一連の音に所定の音が含まれていると判定された場合に、所定の音より後に入力される一連の音の少なくとも一部を、所定の音に基づいて特定される区間の音のデータとして記憶してもよい。例えば、音データ記憶部１２は、所定の音より後に入力され、再度所定の音が入力されるまでの区間の音のデータを記憶してもよい。この場合、音データ記憶部１２は、所定の音が録音区間に含まれないように、音データを記憶してもよい。このように、所定の音より後に入力される一連の音の少なくとも一部を区間の音のデータとして記憶することで、記憶部に記憶すべき音データの容量を少なくすることができ、記憶された音のデータに所定の音が含まれているか否かを事後的に判定する必要が無いため、演算負荷を減らすことができる。なお、区間の開始を特定するための音と、区間の終了を特定するための音は、同じ音であってもよいし、別の音であってもよい。また、区間の終了は、区間の開始を特定するための所定の音が入力された時からの経過時間によって定めてもよい。

また、音データ記憶部１２は、入力部１０ｅにより入力される一連の音のデータを記憶してもよい。抽出部１４は、音データ記憶部１２に記憶された一連の音のデータから、所定の音より後に入力された一連の音の少なくとも一部を、所定の音に基づいて特定される区間の音のデータとして抽出する。抽出部１４は、所定の音より後に入力され、再度所定の音が入力されるまでの区間の音のデータを抽出してもよい。この場合、抽出部１４は、所定の音が抽出する区間に含まれないように、音データを抽出してもよい。このように、入力される一連の音のデータを記憶し、所定の音より後に入力された一連の音の少なくとも一部を抽出することで、抽出された区間の音のデータ以外のデータも記憶部に記憶されることとなり、抽出された区間の音のデータ以外のデータを事後的にテキストに変換することができるようになり、より柔軟な音データのテキスト化が可能となる。

送信部１３は、判定部１１により一連の音に所定の音が含まれていると判定された場合に、音データに基づいてテキストデータを生成するサーバ（第１音声認識サーバ２０、第２音声認識サーバ３０及び第３音声認識サーバ４０）に対して、所定の音に基づいて特定される区間の音のデータを送信する。なお、図３では、サーバを図示せず、通信ネットワークＮを図示している。

受信部１６は、サーバから、所定の音に基づいて特定される区間の音のデータに基づいて生成されたテキストデータを受信する。

分割部１５は、所定の音に基づいて特定される区間の音のデータを、複数の音データに分割する。送信部１３は、複数の音データの順序を入れ替えて、複数の音データをサーバに送信してもよい。この場合、受信部１６は、複数の音データに基づいて生成された複数のテキストデータを受信する。そして、合成部１７は、送信部１３による複数の音データの順序の入れ替えに基づいて、受信した複数のテキストデータを一つのテキストデータに合成する。このように、所定の音に基づいて特定された区間の音のデータを、複数の音データに分割して、その順序を入れ替えてサーバに送信することで、送信した音データの内容が第三者に読み取られることを防止することができる。

また、送信部１３は、分割部１５により得られた複数の音データを、音データに基づいてテキストデータを生成する複数のサーバに分配して送信してもよい。本実施形態の場合、送信部１３は、分割した複数の音データを、第１音声認識サーバ２０、第２音声認識サーバ３０及び第３音声認識サーバ４０に分配して送信してもよい。所定の音に基づいて特定された区間の音のデータを、複数の音データに分割して、複数のサーバに分配して送信することで、それぞれのサーバに送信した音データの一部から全体の内容を再現することが困難となり、音データの内容が第三者に読み取られるおそれをさらに低減させることができる。分割した音データを複数のサーバに分配する方法としては、ランダムに分配する方法の他、過去の音声データを音声認識した結果、品質の良いサーバに優先的に分配を行う構成であってもよい。品質の良いサーバに基づき優先的に分配を行う場合、発話者であるユーザ毎にサーバを決定して分配してもよい。具体的には、あるユーザＡの過去の音声認識結果の品質が、サーバαが最も優れている場合には、当該ユーザＡに関する音データはサーバαに優先的に分配し、他のユーザＢの過去の音声認識結果の品質が、サーバβが最も優れている場合には、当該ユーザＢに関する音データはサーバβに優先的に分配することとしてよい。

修正部１８は、得られたテキストデータに含まれる各単語について、テキスト化の処理を実行したサーバにより出力されたテキスト化の信頼度に基づいて、単語の修正を行う。第１音声認識サーバ２０、第２音声認識サーバ３０及び第３音声認識サーバ４０は、一般的な用語について音データをテキストデータに変換することができるものであり、社内用語等、一般には用いられていない単語が音データに含まれていると、音データを正しくテキストデータに変換することが困難な場合がある。修正部１８は、議事録記憶部１９に記憶された過去の議事録を学習用データとして学習されたＲＮＮ等の言語モデルを含み、テキスト化の信頼度が低い単語について、正しい単語への修正を行う。これにより、社内用語等の一般には用いられていない単語が音データに含まれており、サーバによって音データを正しくテキスト化することが困難な場合であっても、より正確な内容の議事録が作成できるようになる。

議事録記憶部１９は、音データを変換して得られたテキストデータを、議事録の形式で記憶する。データ変換装置１０は、音データを変換して得られたテキストデータに含まれる議題を表す文字又は記号を検出し、議事録記憶部１９に記憶された議事録の適切な箇所に新たなテキストデータを追記する。また、データ変換装置１０は、音データを変換して得られたテキストデータに含まれる人名を表す文字を検出し、議事録記憶部１９に記憶された議事録の適切な議題に担当者名を追記する。これらの処理については、後に図６を用いて詳細に説明する。

図４は、本実施形態に係るデータ変換装置１０により特定される音データの区間の一例を示す図である。同図では、会議において録音された音データの波形を示している。本例の音データは、第１区間Ａ１、第２区間Ａ２及び第３区間Ａ３を含む。第１区間Ａ１は、議事録に記録する必要の無い発言に対応する区間であり、第２区間Ａ２は、所定の音として予め設定されているベルの音に対応する区間であり、第３区間Ａ３は、議事録に記録する必要がある発言に対応する区間である。

データ変換装置１０は、判定部１１によって、入力される一連の音に所定の音が含まれているか否かを判定する。ここで、所定の音が含まれているか否かは、所定の音の波形が含まれているか否かによって判定してよい。本例では、判定部１１は、第２区間Ａ２の波形が入力されることで、所定の音が含まれていると判定する。

判定部１１により一連の音に所定の音が含まれていると判定されると、音データ記憶部１２は、所定の音より後に入力される第３区間Ａ３の音を、所定の音に基づいて特定される区間の音のデータとして記憶する。その後、データ変換装置１０は、第３区間Ａ３の音データを第１音声認識サーバ２０等に送信し、その内容に対応するテキストデータを受信する。

また、データ変換装置１０は、第３区間Ａ３の音データを第１音声認識サーバ２０等に送信する前に、第３区間Ａ３の音データを複数の音データに分割して、その順序を変えてサーバに送信したり、複数のサーバに分配したりしてもよい。この場合、分割の方法を幾つか変えて、第１音声認識サーバ２０等によるテキストデータへの変換の信頼度が良好となる分割方法を採用することとしてもよい。例えば、第３区間Ａ３の音データを等間隔で３分割して第１音声認識サーバ２０等にそれぞれの音データを認識させた場合と、第３区間Ａ３の音データを等間隔で１０分割して第１音声認識サーバ２０等にそれぞれの音データを認識させた場合と、におけるテキスト化の信頼度を比較して、より信頼度の高い分割数を採用することとしてもよい。これにより、サーバによる音声認識精度を向上させることができ、より正確なテキスト化が行えるようになり、テキスト化の精度とセキュリティを両立することができる。

また、音データの分割箇所を、波形の振幅に応じて決定することとしてもよい。例えば、音データの振幅が所定値以下となる区間の中央で音データを分割することとしてもよい。これにより、音データを所定の区間数に分割したり、所定の区間幅で分割したりする場合よりも、サーバによる音声認識精度を向上させることができ、より正確なテキスト化が行えるようになり、テキスト化の精度とセキュリティを両立することができる。

図５は、本実施形態に係るデータ変換装置１０により実行される第１処理のフローチャートである。第１処理は、入力される一連の音に所定の音が含まれていると判定された場合に、所定の音に基づいて特定される区間の音のデータを記憶し、テキスト化して議事録を更新する処理である。

データ変換装置１０は、入力部１０ｅにより、入力される音のデータを取得する（Ｓ１０）。判定部１１は、入力される一連の音に所定の音が含まれているか否かを判定する（Ｓ１１）。入力される一連の音に所定の音が含まれていない場合（Ｓ１１：Ｎｏ）、音データの取得と、所定の音が含まれているか否かの判定を継続する。

一方、入力される一連の音に所定の音が含まれている場合（Ｓ１１：Ｙｅｓ）、音データ記憶部１２は、所定の音の後に入力される一連の音を、所定の音に基づいて特定される区間の音のデータとして記憶する（Ｓ１２）。

分割部１５は、特定された区間の音のデータを、複数の音データに分割する（Ｓ１３）。送信部１３は、複数の音データの順序を入れ替えて、第１音声認識サーバ２０、第２音声認識サーバ３０及び第３音声認識サーバ４０のうち１又は複数のサーバに送信する（Ｓ１４）。すなわち、送信部１３は、複数の音データの順序を入れ替え、且つ、複数の音データを複数のサーバに分配して送信してもよい。

受信部１６は、１又は複数のサーバから、複数の音データをテキスト化した複数のテキストデータを受信する（Ｓ１５）。合成部１７は、複数の音データの順序の入れ替え及びサーバへの分配に基づいて、複数のテキストデータの順序を入れ替えて、一つのテキストデータに合成する（Ｓ１６）。

修正部１８は、１又は複数のサーバによるテキスト化の信頼度に基づいて、信頼度が低い単語を、適切と推定される単語に修正する（Ｓ１７）。なお、修正部１８による単語の修正は、合成部１７によって一つのテキストデータが合成された後に行われることが望ましい。分割された複数の音データに対応する複数のテキストデータの状態で単語の修正を行うこととすると、文章の前後関係が不明となり、適切な修正が困難になる場合があるからである。

データ変換装置１０は、得られたテキストデータの中の所定の文字に基づいて、議事録への追記箇所を特定する（Ｓ１８）。例えば、特定の議題を表す文字列や記号を認識して、議事録のうちその議題を記載した箇所に、得られたテキストデータを追記する。また、データ変換装置１０は、得られたテキストデータの中の人名に基づいて、担当者を特定する（Ｓ１９）。データ変換装置１０は、特定された担当者の名前を、対応する議題の担当者として議事録に追記してよい。

最後に、データ変換装置１０は、当日の日付を記載日として議事録に付加して、議事録を更新する（Ｓ２０）。なお、日付のみならず、会議が行われた時刻を付加することとしてもよい。以上で第１処理が終了する。

図６は、本実施形態に係るデータ変換装置１０により更新された議事録Ｄの一例を示す図である。本例の議事録Ｄは、７月１日と７月３日に記載された内容を含み、さらに７月４日に最新の更新が行われたものである。議事録Ｄは、「＃１０００」と名付けられた第１議題Ｄ１と、「＃２５１７正しい在り方での証明書の検証」と名付けられた第２議題Ｄ２と、に関する記載を含む。

第１議題Ｄ１について、「→まずは設計書に記載する（７／１記載）」、「→明日議論する（７／３記載）」という記載を含む。このことから、７月３日の時点で、翌日の７月４日に第１議題Ｄ１について議論することが決定していたことがわかる。そして、第１議題Ｄ１には、「→ＡＢＣパラメータは１０００とする（７／４記載）」と追記されている。

このような記載は、例えば以下のようにして追記される。まず、会議において様々な議論がなされ、「ＡＢＣパラメータ」をどのような値とするかについて結論が得られたとする。そのような段階で、所定の音に相当するベルが鳴らされると、データ変換装置１０は、所定の音が入力された後に発言された「シャープ１０００、ＡＢＣパラメータは１０００とする」という音データを記憶し、第１音声認識サーバ２０等に送信して、その内容をテキスト化したテキストデータを受信する。そして、「シャープ１０００」という文字列に基づいて、「＃１０００」と名付けられた第１議題Ｄ１の記載箇所に、「ＡＢＣパラメータは１０００とする」というテキストデータを追記する。この際、会議が行われた当日の日付である７月４日（７／４）を付加する。

第２議題Ｄ２は、「→７／１２リリース予定。手順をアプリＴに連携済み。（７／１記載）」、「→［Ａさん宿題］品質管理委員のリリース予定に書く（７／３記載）」、「→記載済み、本日実行をお願いします。（７／４追記）」という記載を含む。

このような記載は、例えば以下のようにして追記される。まず、会議において様々な議論がなされ、「品質管理委員のリリース予定に書く」というタスクを実行する必要があることが決定され、その担当者を「Ａさん」とすることが決定されたとする。そのような段階で、所定の音に相当するベルが鳴らされると、データ変換装置１０は、所定の音が入力された後に発言された「シャープ２５１７、Ａさん宿題、品質管理委員のリリース予定に書く」という音データを記憶し、第１音声認識サーバ２０等に送信して、その内容をテキスト化したテキストデータを受信する。そして、「シャープ２５１７」という文字列に基づいて、「＃２５１７」と名付けられた第２議題Ｄ２の記載箇所に、「品質管理委員のリリース予定に書く」というテキストデータを追記する。また、「Ａさん宿題」という文字列に基づいて、そのタスクの担当者を明らかにするように「［Ａさん宿題］」と追記する。そして、会議が行われた当日の日付である７月３日（７／３）を付加する。

このように、本実施形態に係るデータ変換装置１０によれば、会議がどのような議題に関するものであるかを識別して、議事録の適切な箇所に追記を行うことができる。これにより、議事録作成者の作業負担が低減する。また、担当者名を識別して、議事録の適切な箇所に担当者を追記することができ、作業の円滑な進行を支援することができる。

図７は、本実施形態に係るデータ変換装置１０により実行される第２処理のフローチャートである。第２処理は、入力される一連の音を記憶し、記憶された一連の音に所定の音が含まれていると判定された場合に、所定の音に基づいて特定される区間の音のデータを抽出し、テキスト化して議事録を更新する処理である。

データ変換装置１０は、入力部１０ｅにより入力される音のデータを音データ記憶部１２に記憶する（Ｓ３０）。ここで、音データ記憶部１２への音データの記憶は、会議中連続的に行われてよい。判定部１１は、記憶された一連の音に所定の音が含まれているか否かを判定する（Ｓ３１）。一連の音に所定の音が含まれていない場合（Ｓ３１：Ｎｏ）、第２処理は終了する。

一方、一連の音に所定の音が含まれている場合（Ｓ３１：Ｙｅｓ）、抽出部１４は、所定の音の後に入力される一連の音を、所定の音に基づいて特定される区間の音のデータとして抽出する（Ｓ３２）。

分割部１５は、特定された区間の音のデータを、複数の音データに分割する（Ｓ３３）。送信部１３は、複数の音データの順序を入れ替えて、第１音声認識サーバ２０、第２音声認識サーバ３０及び第３音声認識サーバ４０のうち１又は複数のサーバに送信する（Ｓ３４）。すなわち、送信部１３は、複数の音データの順序を入れ替え、且つ、複数の音データを複数のサーバに分配して送信してもよい。

受信部１６は、１又は複数のサーバから、複数の音データをテキスト化した複数のテキストデータを受信する（Ｓ３５）。合成部１７は、複数の音データの順序の入れ替え及びサーバへの分配に基づいて、複数のテキストデータの順序を入れ替えて、一つのテキストデータに合成する（Ｓ３６）。

修正部１８は、１又は複数のサーバによるテキスト化の信頼度に基づいて、信頼度が低い単語を、適切と推定される単語に修正する（Ｓ３７）。

データ変換装置１０は、得られたテキストデータの中の所定の文字に基づいて、議事録への追記箇所を特定する（Ｓ３８）。例えば、特定の議題を表す文字列や記号を認識して、議事録のうちその議題を記載した箇所に、得られたテキストデータを追記する。また、データ変換装置１０は、得られたテキストデータの中の人名に基づいて、担当者を特定する（Ｓ３９）。データ変換装置１０は、特定された担当者の名前を、対応する議題の担当者として議事録に追記してよい。

最後に、データ変換装置１０は、当日の日付を記載日として議事録に付加して、議事録を更新する（Ｓ４０）。なお、日付のみならず、会議が行われた時刻を付加することとしてもよい。以上で第２処理が終了する。

図８は、本実施形態に係るデータ変換装置１０により特定される音データの区間の他の例を示す図である。同図では、会議において録音された音データの波形の他の例を示している。本例の音データは、第５区間Ａ５、第６区間Ａ６、第７区間Ａ７及び第８区間Ａ８を含む。第５区間Ａ５は、議事録に記録する必要の無い発言に対応する区間であり、第６区間Ａ６は、約２秒間のほとんど無音の区間であり、第７区間Ａ７は、所定の発言として設定された「議事録お願いします」という発言に対応する区間であり、第８区間Ａ８は、議事録に記録する必要がある発言に対応する区間である。

データ変換装置１０は、判定部１１によって、入力される一連の音に所定の音が含まれているか否かを判定する。ここで、所定の音が含まれているか否かは、所定の音の波形が含まれているか否かによって判定してよい。本例では、判定部１１は、第６区間Ａ６及び第７区間Ａ７の波形が入力されることで、所定の音が含まれていると判定する。すなわち、判定部１１は、約２秒間の沈黙の後に、「議事録お願いします」と発言されたか否かによって、一連の音に所定の音が含まれているか否かを判定する。

判定部１１により一連の音に所定の音が含まれていると判定されると、音データ記憶部１２は、所定の音より後に入力される第８区間Ａ８の音を、所定の音に基づいて特定される区間の音のデータとして記憶する。その後、データ変換装置１０は、第８区間Ａ８の音データを第１音声認識サーバ２０等に送信し、その内容に対応するテキストデータを受信する。

このように、所定の規則に従った発言が行われたか否かによって、入力される一連の音に所定の音が含まれているか否かを判定することで、所定の音として特殊な音（例えば、物理的なベルの音や電子的に合成したベルの音）を鳴らすための用意が不要となり、より手軽に議事録作成の指示を出すことができるようになる。

図９は、本実施形態に係るデータ変換装置１０により音データの区間を指定する例を示す図である。同図では、図８で示した第５区間Ａ５、第６区間Ａ６、第７区間Ａ７及び第８区間Ａ８を含む音データについて、第９区間Ａ９及び第１０区間Ａ１０を指定した例を示している。

データ変換装置１０は、録音した音データの波形と、認識された音データの区間（本例の場合、第５区間Ａ５、第６区間Ａ６、第７区間Ａ７及び第８区間Ａ８）を表示部１０ｆに表示して、入力部１０ｅに含まれるポインティングデバイス等によって、ユーザから区間の修正や追加を受け付けてよい。例えば、会議を行った当初は、所定の音を発生させた後の発言、すなわち第８区間Ａ８における発言のみを議事録に記録すれば十分だと考えていたところ、事後的に第５区間Ａ５で話し合った内容の一部も議事録に残したいと考える場合があり得る。このような場合に、ユーザは、ポインタＰＴ等によって抽出する音データの区間を指定することができる。本例では、ユーザは、第９区間Ａ９及び第１０区間Ａ１０を新たに抽出する区間として指定している。

データ変換装置１０は、新たに指定された第９区間Ａ９及び第１０区間Ａ１０の音データを第１音声認識サーバ２０等に送信し、テキスト化したテキストデータを受信し、議事録の適切な箇所に当該テキストデータを追記する。

このように、テキスト化する音データの区間を視覚的に確認できるように表示して、修正や追加を行えるようにすることで、より柔軟にテキスト化する音データを選択することができるようになり、データ変換装置１０の利便性が向上する。

以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。

１０…データ変換装置、１０ａ…ＣＰＵ、１０ｂ…ＲＡＭ、１０ｃ…ＲＯＭ、１０ｄ…通信部、１０ｅ…入力部、１０ｆ…表示部、１１…判定部、１２…音データ記憶部、１３…送信部、１４…抽出部、１５…分割部、１６…受信部、１７…合成部、１８…修正部、１９…議事録記憶部、２０…第１音声認識サーバ、３０…第２音声認識サーバ、４０…第３音声認識サーバ、Ｎ…通信ネットワーク

Claims

入力される一連の音に所定の音が含まれているか否かを判定する判定部と、
少なくとも、前記一連の音のうち前記所定の音に基づいて特定される区間の音のデータを記憶する記憶部と、
前記区間の音のデータを、複数の音データに分割する分割部と、
前記判定部により前記一連の音に前記所定の音が含まれていると判定された場合に、音データに基づいてテキストデータを生成する複数のサーバに対して、前記複数の音データの順序を入れ替えて、前記複数の音データのそれぞれを、前記複数の音データのそれぞれの発話者の情報に基づいて選択される少なくとも一つのサーバに分配して送信する送信部と、
前記少なくとも一つのサーバから、前記複数の音のデータのそれぞれに基づいて生成された複数のテキストデータのそれぞれであって、各単語の信頼度を含む前記複数のテキストデータのそれぞれを受信する受信部と、
前記送信部による前記複数の音データの順序の入れ替えに基づいて、前記複数のテキストデータを一つのテキストデータに合成する合成部と、
過去の文書を学習用データとして学習された言語モデルに基づいて、前記信頼度が一定値以下の前記単語を修正する修正部と、
を備えるデータ変換装置。
前記記憶部は、前記判定部により前記一連の音に前記所定の音が含まれていると判定された場合に、前記所定の音より後に入力される一連の音の少なくとも一部を前記区間の音のデータとして記憶する、
請求項１に記載のデータ変換装置。
前記記憶部は、前記一連の音のデータを記憶し、
前記記憶部に記憶された前記一連の音のデータから、前記所定の音より後に入力された一連の音の少なくとも一部を前記区間の音のデータとして抽出する抽出部をさらに備える、
請求項１に記載のデータ変換装置。
前記修正部は、前記合成部によって合成された前記一つのテキストデータに含まれる単語であって、前記信頼度が一定値以下の前記単語を修正する、
請求項１～３のいずれか一項に記載のデータ変換装置。
前記分割部は、前記区間の音データの波形の振幅に基づいて、前記区間の音データを前記複数の音データに分割する、
請求項１～４のいずれか一項に記載のデータ変換装置。