JP2017090716A - 書き起こしテキスト作成支援システム、書き起こしテキスト作成支援方法及び書き起こしテキスト作成支援プログラム - Google Patents
書き起こしテキスト作成支援システム、書き起こしテキスト作成支援方法及び書き起こしテキスト作成支援プログラム Download PDFInfo
- Publication number
- JP2017090716A JP2017090716A JP2015221530A JP2015221530A JP2017090716A JP 2017090716 A JP2017090716 A JP 2017090716A JP 2015221530 A JP2015221530 A JP 2015221530A JP 2015221530 A JP2015221530 A JP 2015221530A JP 2017090716 A JP2017090716 A JP 2017090716A
- Authority
- JP
- Japan
- Prior art keywords
- divided
- transcription
- data
- audio data
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】音声データの書き起こしの信頼性を維持しつつ、機密情報の漏えいを防止する。【解決手段】音声データを分割して複数の分割音声データを生成し、分割音声データ生成工程で生成された前記分割音声データを、分割順が不連続となるように複数の書き起こし作業者の端末装置に分配し、複数の前記書き起こし作業者の端末装置から、複数の分割音声データの書き起こし結果である複数の分割テキストデータを受信し、複数の分割テキストデータを結合して、音声データの書き起こし結果である結合テキストデータを生成する。【選択図】図1
Description
本発明は、書き起こしテキスト作成支援システム、書き起こしテキスト作成支援方法及び書き起こしテキスト作成支援プログラムに関する。
従来、音声データに基づいて発言や会話をテキストに書き起こす書き起こしが行われている。音声データの書き起こしやそれに基づく議事録の作成は膨大な作業量となる。このため、音声データの書き起こしの際に、音声認識技術を用いて自動的に音声データをテキストデータに変換することが検討されている。しかしながら、音声認識技術を使用する音声データの書き起こしは技術的難易度が高く、精度の高い書き起こしは困難である。
また、機密情報が含まれる音声データの書き起こしは、機密情報漏えい防止の観点から、社内スタッフ及び社外スタッフの何れにも依頼することが困難である。このため、機密情報が含まれる音声データの書き起こしは、経営者や役職の位の高い従業員によって行われている。
また、機密情報が含まれる音声データの書き起こしは、機密情報漏えい防止の観点から、社内スタッフ及び社外スタッフの何れにも依頼することが困難である。このため、機密情報が含まれる音声データの書き起こしは、経営者や役職の位の高い従業員によって行われている。
ところで、上述したように、音声データの書き起こしの作業量は膨大となる。このため、経営者や役職の位の高い従業員によって、生産性のない書き起こし作業が行われることは好ましくない。このため、以下の特許文献1には、音声データに機密情報に関するキーワードが含まれる音声データの書き起こしを、信頼度の高いスタッフに依頼することが開示されている。
しかしながら、上述したように、信頼度の高いスタッフに音声データの書き起こしを依頼した場合であっても、特定のスタッフに音声データの書き起こしを依頼する以上、当該スタッフが機密情報を知り得ることとなる。このため、機密情報の漏えいを確実に防止することが困難となる場合がある。
本発明は、このような点に鑑みてなされたものであり、音声データの書き起こしの信頼性を維持しつつ、機密情報の漏えいを防止する書き起こしテキスト作成支援システム、書き起こしテキスト作成支援プログラム及び書き起こしテキスト作成支援方法を提供することを目的とする。
本発明は、このような点に鑑みてなされたものであり、音声データの書き起こしの信頼性を維持しつつ、機密情報の漏えいを防止する書き起こしテキスト作成支援システム、書き起こしテキスト作成支援プログラム及び書き起こしテキスト作成支援方法を提供することを目的とする。
上記目的を達成するために、本発明の一態様に係る書き起こしテキスト作成支援システムは、書き起こしテキスト作成装置と分割音声データ分配装置とを備え、前記書き起こしテキスト作成装置は、音声データを分割して複数の分割音声データを生成する分割音声データ生成部、複数の前記分割音声データを分割順が不連続となるように前記分割音声データ分配装置に送信する送信部、複数の前記分割音声データの書き起こし結果である複数の分割テキストデータを受信する受信部、及び、受信した複数の前記分割テキストデータを結合して前記音声データの書き起こし結果である結合テキストデータを生成する結合テキストデータ生成部を有し、前記分割音声データ分配装置は、複数の前記分割音声データを複数の書き起こし作業者の端末装置に分配することを特徴とする。
また、本発明の一態様に係る書き起こしテキスト作成支援方法は、音声データを分割して複数の分割音声データを生成する分割音声データ生成工程と、前記分割音声データ生成工程で生成された複数の前記分割音声データを、分割順が不連続となるように複数の書き起こし作業者の端末装置に分配する分割音声データ分配工程と、複数の前記書き起こし作業者の端末装置から、前記分割音声データ分配工程で分配された複数の前記分割音声データの書き起こし結果である複数の分割テキストデータを受信する分割テキストデータ受信工程と、前記分割テキストデータ受信工程で受信した複数の前記分割テキストデータを結合して、前記音声データの書き起こし結果である結合テキストデータを生成する結合テキストデータ生成工程と、を備えることを特徴とする。
また、本発明の一態様に係る書き起こしテキスト作成支援プログラムは、複数の分割音声データを、複数の書き起こし作業者の端末装置に分配する分割音声データ分配部、音声データを分割して前記複数の分割音声データを生成する分割音声データ生成部、複数の前記分割音声データを分割順が不連続となるように前記分割音声データ分配部に送信する送信部、複数の前記分割音声データの書き起こし結果である複数の分割テキストデータを受信する受信部、及び、受信した複数の前記分割テキストデータを結合して前記音声データの書き起こし結果である結合テキストデータを生成する結合テキストデータ生成部として機能させることを特徴とする。
本発明の一態様によれば、音声データの書き起こしの信頼性を維持しつつ、機密情報の漏えいを防止することができる。
1.第1の実施形態
本発明の第1の実施形態に係る書き起こしテキスト作成支援システム、分割音声データ分配装置、書き起こしテキスト作成支援方法及び書き起こしテキスト作成支援プログラムについて、図1から図9を参照して説明する。まず、第1の実施形態に係る書き起こしテキスト作成支援システムの構成について図1を用いて説明する。
本発明の第1の実施形態に係る書き起こしテキスト作成支援システム、分割音声データ分配装置、書き起こしテキスト作成支援方法及び書き起こしテキスト作成支援プログラムについて、図1から図9を参照して説明する。まず、第1の実施形態に係る書き起こしテキスト作成支援システムの構成について図1を用いて説明する。
(1−1)書き起こしテキスト作成支援システムの構成
図1は、本実施形態における書き起こしテキスト作成支援システム1の概略構成を示す図である。図1に示すように、本実施形態における書き起こしテキスト作成支援システム1は、書き起こしテキスト作成装置10(書き起こしテキスト作成装置10A、10B、10C)、分割音声データ分配装置20及び複数の書き起こし作業者端末30(書き起こし作業者端末30A、30B、30C)を備えている。複数の書き起こしテキスト作成装置10及び分割音声データ分配装置20、並びに分割音声データ分配装置20及び複数の書き起こし作業者端末30は、ネットワーク(図示せず)を介して接続されている。
なお、以下、書き起こしテキスト作成装置10及び書き起こし作業者端末30の個数が3個であるものとして書き起こしテキスト作成支援システム1を説明するが、書き起こし作業者端末30の数(すなわち書き起こし作業者の数)はこれに限定されるものではない。特に、書き起こし作業者の数は、数十人以上であることが好ましい。
図1は、本実施形態における書き起こしテキスト作成支援システム1の概略構成を示す図である。図1に示すように、本実施形態における書き起こしテキスト作成支援システム1は、書き起こしテキスト作成装置10(書き起こしテキスト作成装置10A、10B、10C)、分割音声データ分配装置20及び複数の書き起こし作業者端末30(書き起こし作業者端末30A、30B、30C)を備えている。複数の書き起こしテキスト作成装置10及び分割音声データ分配装置20、並びに分割音声データ分配装置20及び複数の書き起こし作業者端末30は、ネットワーク(図示せず)を介して接続されている。
なお、以下、書き起こしテキスト作成装置10及び書き起こし作業者端末30の個数が3個であるものとして書き起こしテキスト作成支援システム1を説明するが、書き起こし作業者端末30の数(すなわち書き起こし作業者の数)はこれに限定されるものではない。特に、書き起こし作業者の数は、数十人以上であることが好ましい。
書き起こしテキスト作成装置10(書き起こしテキスト作成装置10A、10B、10C)は、コンピュータ等により構成され、具体的には、サーバ装置である分割音声データ分配装置20に対して書き起こしテキスト作成のための要求を行うためのプログラムがインストールされたクライアント装置である。書き起こしテキスト作成装置10A、10B、10Cは、それぞれ、例えば書き起こしテキスト作成支援システム1を利用するA社、B社、C社に設置されている。A社、B社、C社は、書き起こしテキスト作成装置10A、10B、10Cをそれぞれ用いて、音声データの書き起こし作業を依頼する。
書き起こしテキスト作成装置10は、書き起こしを行う音声の音声データを分割して複数の分割音声データを生成する。また、書き起こしテキスト作成装置10は、各分割音声データの書き起こし結果である複数の分割テキストデータを受信し、結合することで、分割前の音声データの書き起こし結果である結合テキストデータを生成する。なお、本発明において、「音声データ」とは人間の声が含まれるデータをいうものとする。
書き起こしテキスト作成装置10は、書き起こしを行う音声の音声データを分割して複数の分割音声データを生成する。また、書き起こしテキスト作成装置10は、各分割音声データの書き起こし結果である複数の分割テキストデータを受信し、結合することで、分割前の音声データの書き起こし結果である結合テキストデータを生成する。なお、本発明において、「音声データ」とは人間の声が含まれるデータをいうものとする。
分割音声データ分配装置20は、コンピュータ等により構成され、具体的には、クライアントである書き起こしテキスト作成装置10からの要求に対して書き起こしテキスト作成のための支援を行うプログラムがインストールされたサーバ装置である。
分割音声データ分配装置20は、書き起こしテキスト作成装置10A、10B、10Cから受信した分割順が不連続な複数の分割音声データを、複数の書き起こし作業者端末30A、30B、30Cに分配する。また、分割音声データ分配装置20は、書き起こし作業者端末30A、30B、30Cから送信された、分割音声データの書き起こし結果である複数の分割テキストデータを、書き起こしテキスト作成装置10に送信する。
以下、書き起こしテキスト作成装置10、分割音声データ分配装置20及び書き起こし作業者端末30について詳細に説明する。
分割音声データ分配装置20は、書き起こしテキスト作成装置10A、10B、10Cから受信した分割順が不連続な複数の分割音声データを、複数の書き起こし作業者端末30A、30B、30Cに分配する。また、分割音声データ分配装置20は、書き起こし作業者端末30A、30B、30Cから送信された、分割音声データの書き起こし結果である複数の分割テキストデータを、書き起こしテキスト作成装置10に送信する。
以下、書き起こしテキスト作成装置10、分割音声データ分配装置20及び書き起こし作業者端末30について詳細に説明する。
[書き起こしテキスト作成装置]
以下、図1を参照して、書き起こしテキスト作成装置10について詳細に説明する。
書き起こしテキスト作成装置10は、分割音声データ生成部11と、分割ファイル名付与部12と、送信部13と、受信部14と、結合テキストデータ生成部15とを有している。
以下、図1を参照して、書き起こしテキスト作成装置10について詳細に説明する。
書き起こしテキスト作成装置10は、分割音声データ生成部11と、分割ファイル名付与部12と、送信部13と、受信部14と、結合テキストデータ生成部15とを有している。
分割音声データ生成部11は、音声データを分割して複数の分割音声データを生成する。分割音声データ生成部11は、音声データを音節単位に、すなわち音声データの分割位置が音節と音節の間となるように分割する。これにより、分割音声データの冒頭部及び末尾部の音声が聞き取り易くなり書き起こし精度が向上する。
音声データを音節単位に分割するために、分割音声データ生成部11は、例えば、音声データの音声波形の波形レベルを算出し、音声データ中の無音区間の位置を検知して、無音区間で音声データを分割する。分割音声データ生成部11は、音声データのうち無音時間が基準時間以上である無音区間の位置を検知し、無音区間において音声データを分割する。このとき、分割音声データ生成部11は、分割音声データの平均時間長が所定時間以下となるまで無音区間の基準時間を徐々に短く設定して、無音区間での音声データの分割処理を繰り返すようにしてもよい。
音声データを音節単位に分割するために、分割音声データ生成部11は、例えば、音声データの音声波形の波形レベルを算出し、音声データ中の無音区間の位置を検知して、無音区間で音声データを分割する。分割音声データ生成部11は、音声データのうち無音時間が基準時間以上である無音区間の位置を検知し、無音区間において音声データを分割する。このとき、分割音声データ生成部11は、分割音声データの平均時間長が所定時間以下となるまで無音区間の基準時間を徐々に短く設定して、無音区間での音声データの分割処理を繰り返すようにしてもよい。
例えば、分割音声データ生成部11は、最初の分割処理時には、無音時間が700ms以上である無音区間で音声データを分割し、分割処理が2回目、3回目となるにつれて無音時間の設定を300ms以上、70ms以上と短く設定して、分割処理を行うことができる。これにより、分割音声データの時間長を分割処理毎に短くすることができる。なお、無音時間の設定値はこれに限られたものでなく、例えば2秒等より長い時間に設定してもよい。分割処理の具体的な方法については、後述する。
分割音声データ生成部11は、分割音声データの平均時間長が1秒となるように分割音声データを生成することが好ましい。ここで、「分割音声データの平均時間長が1秒」とは、現実に分割音声データの平均時間長が1秒丁度であることを言うわけではなく、実際には平均時間長が1秒程度(例えば0.8秒以上1.2秒以下)であることをいう。分割音声データの平均時間長が短くなる程、書き起こし作業者による書き起こし精度は低下し、また分割音声の意図が把握しにくくなる。分割音声データの平均時間長が1秒である場合、書き起こし作業者に分割音声に含まれる発話内容が把握されにくく、かつ一定の書き起こし精度を維持することができる。
なお、書き起こし作業の精度(以下、書き起こし精度と記載する)は、分割音声データの平均時間長が5秒の場合には約81%、3秒の場合には約77%、1秒の場合は約75%であった。すなわち、分割音声データの平均時間長が長い程書き起こし精度が高くなるものの、3秒と1秒の場合には書き起こし精度に大きな差はない。
なお、書き起こし作業の精度(以下、書き起こし精度と記載する)は、分割音声データの平均時間長が5秒の場合には約81%、3秒の場合には約77%、1秒の場合は約75%であった。すなわち、分割音声データの平均時間長が長い程書き起こし精度が高くなるものの、3秒と1秒の場合には書き起こし精度に大きな差はない。
また、内容の把握ができたか否かを、分割音声の内容を聞いて株式売買をしようと思うか否かという基準に置き換えて判断した。この場合、有効人数に対する株式売買できると判断した人数の割合は、分割音声データの平均時間長が5秒の場合には約50%、3秒の場合には約61%、1秒の場合は約21%であった。また、有効人数に対する株式売買回数の割合は、分割音声データの平均時間長が5秒の場合には約0.01回/人、3秒の場合には約0.01回/人、1秒の場合は約0.004回/人であった。すなわち、分割音声データの平均時間長が短い程内容の把握が困難となり、分割音声データの平均時間長が1秒の場合には特に内容の把握が困難であった。
以上から、分割音声データ生成部11は、分割音声データの平均時間長が1秒となるように分割音声データを生成することが好ましいことが分かる。
以上から、分割音声データ生成部11は、分割音声データの平均時間長が1秒となるように分割音声データを生成することが好ましいことが分かる。
また、上述した無音時間の設定時間は一例であり、発話者の発話スピード、要求される書き起こし精度、音声データに含まれる機密情報の機密レベル等に応じて適宜設定することができる。例えば、発話者の発話スピードが速い場合には、無音区間が全体的に短いと推定されるため、無音時間を比較的短く設定する。また、書き起こし精度を高くしたい場合には、無音時間を比較的長く設定する。これにより、複数の分割音声データの平均時間長が比較的長くなるため、書き起こし作業者が分割音声を聞き取りやすくなり、書き起こし精度が向上する。さらに、音声データに含まれる機密情報の機密レベルが高い場合には、無音時間を比較的短く設定する。これにより、複数の分割音声データの平均時間長が比較的短くなるため、書き起こし作業者が分割音声から機密情報を知り得る可能性が低くなる。
分割音声データ生成部11は、有音区間の前後に極短い無音区間が存在するようにして、音声データを分割することができる。これにより、分割音声データの冒頭及び末尾に無音区間が含まれるため、分割音声データの聞き取りやすさが向上し、分割音声データの冒頭部及び末尾部の書き起こし精度がより向上する。
分割音声データの聞き取りやすさを向上させるためには、一定の無音区間を存在させることが好ましい。例えば、上述した無音区間を例えば300msとすることが好ましい。また、分割処理時に音声データを分割する無音時間の設定を300ms未満とした場合、300msの無音区間を確保することができない。このため、無音時間ができるだけ長くなるように音声データが分割されることが好ましい。例えば、無音時間が200msの場合は、無音区間を200msの長さで確保する。
分割音声データの聞き取りやすさを向上させるためには、一定の無音区間を存在させることが好ましい。例えば、上述した無音区間を例えば300msとすることが好ましい。また、分割処理時に音声データを分割する無音時間の設定を300ms未満とした場合、300msの無音区間を確保することができない。このため、無音時間ができるだけ長くなるように音声データが分割されることが好ましい。例えば、無音時間が200msの場合は、無音区間を200msの長さで確保する。
また、分割音声データ生成部11は、複数の分割音声データの時間長がそれぞれ同一となるように音声データを分割してもよい。すなわち、分割音声データ生成部11は、所定時間(例えば1秒)毎に音声データを分割してもよい。この場合、分割音声データの冒頭及び最後部の音声が聞き取りにくくなる可能性があるものの、音声データの音声波形の波形レベルの算出や、無音区間の位置の検知が不要となるため、分割処理を短時間で終えることができ、分割処理による負荷を低減することができる。
分割音声データ生成部11は、ある分割音声データの最後部の音声と、分割順がこの分割音声データの次である他の分割音声データの最初部の音声とが重複するようにして、音声データを分割してもよい。この場合、連続する分割音声ファイルの重複部分を、複数の書き起こし作業者が書き起こしすることとなる。このため、特に所定時間毎に音声データを分割した場合において、音声データの切れ目部分において、書き起こしデータが補完され、書き起こし再現性を向上させることができる。
分割ファイル名付与部12は、分割音声データ生成部11で生成された複数の分割音声データに対してそれぞれファイル名を付与する。分割ファイル名付与部12は、分割された複数の分割音声データのそれぞれに、書き起こし作業依頼者(例えばA社、B社、C社)を示す固有の英数字(依頼者情報)と、書き起こし作業を依頼する分割音声データの分割順に対応した分割順情報とを含む分割ファイル名を付与する。依頼者情報及び分割順情報は、それぞれ分割ファイル名内の予め決められた位置(例えば依頼者情報は冒頭の1桁、分割順情報は下位の4桁等)で規定されているものとする。
分割ファイル名付与部12は、各分割音声データに付与した音声ファイル名を記憶している。分割ファイル名は、例えば図示しないテーブル等により管理される。また、書き起こしテキスト作成装置10では、自装置で付与した分割ファイル名のみを管理する。
ここで、A社に設置されている書き起こしテキスト作成装置10Aの分割ファイル名付与部12は、分割音声データの分割ファイル名を、分割順に「A0001.wav」「A0002.wav」「A0003.wav」・・・のように付与する。同様に、書き起こしテキスト作成装置10Bの分割ファイル名付与部12は、分割音声データの分割ファイル名を、分割順に「B0001.wav」「B0002.wav」「B0003.wav」・・・のように付与し、書き起こしテキスト作成装置10Cの分割ファイル名付与部12は、分割音声データの分割ファイル名を、分割順に「C0001.wav」「C0002.wav」「C0003.wav」・・・のように付与する。
ここで、A社に設置されている書き起こしテキスト作成装置10Aの分割ファイル名付与部12は、分割音声データの分割ファイル名を、分割順に「A0001.wav」「A0002.wav」「A0003.wav」・・・のように付与する。同様に、書き起こしテキスト作成装置10Bの分割ファイル名付与部12は、分割音声データの分割ファイル名を、分割順に「B0001.wav」「B0002.wav」「B0003.wav」・・・のように付与し、書き起こしテキスト作成装置10Cの分割ファイル名付与部12は、分割音声データの分割ファイル名を、分割順に「C0001.wav」「C0002.wav」「C0003.wav」・・・のように付与する。
送信部13は、複数の分割音声データを、分割順が不連続となるように分割音声データ分配装置20に送信する。また、送信部13は、複数の分割音声データの一部を間引いて、複数の分割音声データを分割音声データ分配装置20に送信するようにしてもよい。分割音声データを、分割順とならないように又は分割音声データの一部を間引いて送信することにより、書き起こし作業者に対しても分割音声データが分割順とならないように又は分割音声データの一部が間引かれて送信される。このため、書き起こし作業者経由で機密情報が含まれた分割音声データが漏えいしても、内容が把握されにくい。
送信部13は、分割音声データ生成部11で生成された複数の分割音声データを、分割順が不連続となるように分割音声データ分配装置20に送信する。ここで、「分割順が不連続となるように送信」とは、分割音声データ分配装置20に送信される複数の分割音声データが、分割順に連続していないことをいう。これにより、分割音声データ分配装置20からいずれかの書き起こし作業者端末30(例えば書き起こし作業者端末30A)に送信される複数の分割音声データも分割順に連続しなくなる。
例えば、分割音声データ生成部11が音声データを分割して分割音声データaから分割音声データjまでの10個の分割音声データを生成した場合について説明する。分割音声データa、b、c・・・jは、分割順が1、2、3・・・10に該当する。送信部13は、例えば、分割音声データ分配装置20に対して「分割音声データb、分割音声データf、分割音声データj、分割音声データa、分割音声データh、分割音声データd、分割音声データi、分割音声データc、分割音声データg、分割音声データe」の順に送信する。これにより、10個の分割音声データは分割順が不連続となるように送信される。
例えば、分割音声データ生成部11が音声データを分割して分割音声データaから分割音声データjまでの10個の分割音声データを生成した場合について説明する。分割音声データa、b、c・・・jは、分割順が1、2、3・・・10に該当する。送信部13は、例えば、分割音声データ分配装置20に対して「分割音声データb、分割音声データf、分割音声データj、分割音声データa、分割音声データh、分割音声データd、分割音声データi、分割音声データc、分割音声データg、分割音声データe」の順に送信する。これにより、10個の分割音声データは分割順が不連続となるように送信される。
この後、分割音声データ分配装置20が受信した分割音声データを書き起こし作業者端末30A、30B及び30Cに順に分配する。すると、書き起こし作業者端末30Aには「分割音声データb,a,i,e」がこの順に送信される。また、書き起こし作業者端末30Bには「分割音声データf,h,c」がこの順に送信される。さらに、書き起こし作業者端末30Cには「分割音声データj,d,g」がこの順に送信される。
このように、送信部13が分割音声データを分割順が不連続となるように分割音声データ分配装置20に送信することで、各書き起こし作業者端末30に対しても分割音声データを分割順が不連続となるように分配される。
また、送信部13は、結合テキストデータ生成部15からの指示に応じて、分割音声データ分配装置20に書き起こし作業結果の取得要求を行う。
このように、送信部13が分割音声データを分割順が不連続となるように分割音声データ分配装置20に送信することで、各書き起こし作業者端末30に対しても分割音声データを分割順が不連続となるように分配される。
また、送信部13は、結合テキストデータ生成部15からの指示に応じて、分割音声データ分配装置20に書き起こし作業結果の取得要求を行う。
受信部14は、複数の分割音声データの書き起こし結果である複数の分割テキストデータを受信する。書き起こし作業者により複数の分割音声データの書き起こし作業が終了した場合、受信部14は、分割音声データ分配装置20から書き起こし作業完了通知を受信する。書き起こし作業完了通知は、例えば、音声データを分割した複数の分割音声データに対応する複数の分割テキストデータが分割音声データ分配装置20に保存された場合に送信される。受信部14は、書き起こし作業完了通知を受信すると、結合テキストデータ生成部15に書き起こし作業完了通知の受信を通知する。送信部13は、結合テキストデータ生成部15からの指示に応じて、分割音声データ分配装置20に書き起こし作業結果の取得要求を行い、分割音声データ分配装置20に保存された複数の分割テキストデータを取得する。
結合テキストデータ生成部15は、受信部14で受信された複数の分割テキストデータを、分割音声データの分割順に対応する順番で結合して結合テキストデータを生成する。
分割音声データ生成部11において、ある分割音声データの最後部の音声と、分割順がこの分割音声データの次である他の分割音声データの最初部の音声とが重複するようにして音声データが分割される場合がある。この場合、連続する分割音声ファイルの重複部分は、複数の書き起こし作業者によって書き起こしされている。このため、前者の分割音声データの書き起こし結果の末尾部分と後者の分割音声データの書き起こし結果の冒頭部分とを比較して補完することができ、音声の切れ目部分の書き起こし再現性を向上させることができる。
分割音声データ生成部11において、ある分割音声データの最後部の音声と、分割順がこの分割音声データの次である他の分割音声データの最初部の音声とが重複するようにして音声データが分割される場合がある。この場合、連続する分割音声ファイルの重複部分は、複数の書き起こし作業者によって書き起こしされている。このため、前者の分割音声データの書き起こし結果の末尾部分と後者の分割音声データの書き起こし結果の冒頭部分とを比較して補完することができ、音声の切れ目部分の書き起こし再現性を向上させることができる。
[書き起こし作業者端末]
書き起こし作業者端末30A、30B、30Cは、書き起こしを行う作業者が所持する端末であり、例えばパーソナルコンピュータ、タブレット型コンピュータ、スマートフォン等のコンピュータ等により構成される。書き起こし作業者端末30A、30B、30Cは、分割音声データ分配装置20から送信された分割音声データを受信し、書き起こし作業者によって分割音声の書き起こしがなされる。書き起こし結果は、分割テキストデータとして分割音声データ分配装置20に返信される。
なお、書き起こし作業者端末30は、書き起こし結果である分割テキストデータに対して、分割音声データの分割ファイル名と関連する分割テキストファイル名を付与する。例えば、分割ファイル名「A0001.wav」「A0002.wav」・・・の分割音声データの書き起こし結果には、例えば「A0001.txt」「A0002.txt」・・・との分割テキストファイル名を付与する。これにより、書き起こし結果のファイル名から、書き起こし結果に対応する分割音声データを把握することができる。また、書き起こし作業者端末30は、分割ファイル名と同様に、ファイル名内の予め決められた位置に依頼者情報及び分割順情報が含まれるように分割テキストファイル名を付与する。
書き起こし作業者端末30A、30B、30Cは、書き起こしを行う作業者が所持する端末であり、例えばパーソナルコンピュータ、タブレット型コンピュータ、スマートフォン等のコンピュータ等により構成される。書き起こし作業者端末30A、30B、30Cは、分割音声データ分配装置20から送信された分割音声データを受信し、書き起こし作業者によって分割音声の書き起こしがなされる。書き起こし結果は、分割テキストデータとして分割音声データ分配装置20に返信される。
なお、書き起こし作業者端末30は、書き起こし結果である分割テキストデータに対して、分割音声データの分割ファイル名と関連する分割テキストファイル名を付与する。例えば、分割ファイル名「A0001.wav」「A0002.wav」・・・の分割音声データの書き起こし結果には、例えば「A0001.txt」「A0002.txt」・・・との分割テキストファイル名を付与する。これにより、書き起こし結果のファイル名から、書き起こし結果に対応する分割音声データを把握することができる。また、書き起こし作業者端末30は、分割ファイル名と同様に、ファイル名内の予め決められた位置に依頼者情報及び分割順情報が含まれるように分割テキストファイル名を付与する。
[分割音声データ分配装置]
以下、図1を参照して、分割音声データ分配装置20について詳細に説明する。分割音声データ分配装置20は、送信部21と、受信部22と、記憶部23と、書き起こし結果通知部24とを有している。
送信部21は、書き起こし作業者端末30A、30B、30Cに対して、書き起こしテキスト作成装置10から受信した分割音声データを分配する。このとき、送信部21は、書き起こしテキスト作成装置10から受信した分割音声データを、受信した順に書き起こし作業者端末30A、30B、30Cに順に振り分ける。また、送信部21は、書き起こしテキスト作成装置10から受信した分割音声データの順番を入れ替えたり、間引いて書き起こし作業者端末30A、30B、30Cに振り分けてもよい。
以下、図1を参照して、分割音声データ分配装置20について詳細に説明する。分割音声データ分配装置20は、送信部21と、受信部22と、記憶部23と、書き起こし結果通知部24とを有している。
送信部21は、書き起こし作業者端末30A、30B、30Cに対して、書き起こしテキスト作成装置10から受信した分割音声データを分配する。このとき、送信部21は、書き起こしテキスト作成装置10から受信した分割音声データを、受信した順に書き起こし作業者端末30A、30B、30Cに順に振り分ける。また、送信部21は、書き起こしテキスト作成装置10から受信した分割音声データの順番を入れ替えたり、間引いて書き起こし作業者端末30A、30B、30Cに振り分けてもよい。
また、送信部21は、書き起こし作業完了通知を書き起こしテキスト作成装置10に送信する。さらに、送信部21は、書き起こし作業者端末30A、30B、30Cから受信した分割音声データの書き起こし結果である分割テキストデータを、書き起こしテキスト作成装置10に送信する。
受信部22は、書き起こしテキスト作成装置10から分割音声データを受信する。また、受信部22は、書き起こしテキスト作成装置10から書き起こし作業結果の取得要求を受信する。さらに、受信部22は、書き起こし作業者端末30A、30B、30Cから分割音声データの書き起こし結果である分割テキストデータを受信する。
受信部22は、書き起こしテキスト作成装置10から分割音声データを受信する。また、受信部22は、書き起こしテキスト作成装置10から書き起こし作業結果の取得要求を受信する。さらに、受信部22は、書き起こし作業者端末30A、30B、30Cから分割音声データの書き起こし結果である分割テキストデータを受信する。
記憶部23は、書き起こしテキスト作成装置10から送信された分割音声データを記憶する。また、記憶部23は、書き起こし作業者端末30A、30B、30Cから送信された分割音声データの書き起こし結果である分割テキストデータを記憶する。
書き起こし結果通知部24は、音声データを分割した分割音声データに対応する分割テキストデータ(書き起こし結果)が記憶部23に保存されたことを検知して、書き起こしテキスト作成装置10A、10B、10Cのいずれかに書き起こし作業完了通知を送信する。書き起こし結果通知部24は、書き起こし作業完了通知に対する返信として書き起こしテキスト作成装置10からの書き起こし結果取得要求を受信すると、記憶部23から分割テキストデータを読み出して送信部21に送信させる。
書き起こし結果通知部24は、一分割音声データの書き起こし結果が記憶部23に保存される毎に、書き起こし作業完了通知を送信する。また、書き起こし結果通知部24は、一音声データから分割された複数の分割音声データの書き起こし結果の全てが記憶部23に保存されてから、書き起こし作業完了通知を送信してもよい。このとき、書き起こし作業完了通知を1回のみ送信しても良く、各分割音声データについてそれぞれ書き起こし作業完了通知を送信しても良い。
書き起こし結果通知部24は、一分割音声データの書き起こし結果が記憶部23に保存される毎に、書き起こし作業完了通知を送信する。また、書き起こし結果通知部24は、一音声データから分割された複数の分割音声データの書き起こし結果の全てが記憶部23に保存されてから、書き起こし作業完了通知を送信してもよい。このとき、書き起こし作業完了通知を1回のみ送信しても良く、各分割音声データについてそれぞれ書き起こし作業完了通知を送信しても良い。
また、書き起こし作業完了通知を書き起こしテキスト作成装置10には送信せず、各分割音声データの書き起こし結果である分割テキストデータが格納されているかどうかを、書き起こしテキスト作成装置10から分割音声データ分配装置20に都度確認するようにしてもよい。それにより、書き起こし作業完了通知のために通知先(依頼者)の情報を分割音声データ分配装置20に保持する必要が無くなり、分割音声データ分配装置20経由での機密情報漏洩リスクを低減することができる。
書き起こし結果通知部24は、書き起こしテキスト作成装置10A、10B、10Cのいずれかに書き起こし作業完了通知を送信する際に、書き起こし結果の分割テキストファイル名から作業完了通知の送信先を認識する。すなわち、分割テキストデータのファイル名が「A0001.txt」「A0002.txt」・・・である場合には、書き起こし結果通知部24は、当該分割テキストデータがA社に依頼された書き起こし作業の書き起こし結果であるものと判断する。
(1−2)書き起こしテキスト作成支援方法
(1−2−1)書き起こしテキスト作成支援方法の全体構成
図2を参照して、書き起こしテキスト作成支援方法の流れを説明する。図2は、書き起こしテキスト作成支援方法を説明するシーケンスチャートである。図2には、書き起こしテキスト作成装置10Aを操作するユーザUが示されている。以下、A社の書き起こしテキスト作成装置10Aから書き起こし作業が依頼される場合を例にとって説明する。
ステップS11において、書き起こしテキストの作成準備として、ユーザUが書き起こしテキスト作成装置10Aにおいて書き起こしテキスト作成支援プログラムを起動させ、ログインを行う。続いて、ステップS12において、ユーザUは、書き起こしを依頼する音声データの登録を要求する。これにより、書き起こしを依頼する音声データは、書き起こしテキスト作成装置10Aに保存される(ステップS13)。
(1−2−1)書き起こしテキスト作成支援方法の全体構成
図2を参照して、書き起こしテキスト作成支援方法の流れを説明する。図2は、書き起こしテキスト作成支援方法を説明するシーケンスチャートである。図2には、書き起こしテキスト作成装置10Aを操作するユーザUが示されている。以下、A社の書き起こしテキスト作成装置10Aから書き起こし作業が依頼される場合を例にとって説明する。
ステップS11において、書き起こしテキストの作成準備として、ユーザUが書き起こしテキスト作成装置10Aにおいて書き起こしテキスト作成支援プログラムを起動させ、ログインを行う。続いて、ステップS12において、ユーザUは、書き起こしを依頼する音声データの登録を要求する。これにより、書き起こしを依頼する音声データは、書き起こしテキスト作成装置10Aに保存される(ステップS13)。
ステップS14においてユーザUが書き起こしの依頼を行うと、ステップS15において分割音声データ生成部11により、書き起こしテキスト作成装置10Aに保存された音声データの分割処理が行われ、複数の分割音声データが生成される。ステップS16において、分割ファイル名付与部12による分割音声データそれぞれへの分割ファイル名付与処理(A0001.wav、A0002.wav…)が行われる。分割ファイル名は、分割ファイル名付与部12において管理される。続いて、ステップS17において、送信部13により分割ファイル名が付与された分割音声データが分割音声データ分配装置20に送信される。
ステップS18において、分割音声データ分配装置20の記憶部23に分割音声データが保存されると、ステップS19において分割音声データが書き起こし作業者端末30(書き起こし作業者端末30A、30B、30Cのいずれか)に送信される。このとき、分割音声データ分配装置20は、記憶部23に記憶された複数の分割音声データを、分割順が不連続となるように書き起こし作業者端末30に送信する。また、ステップS19では、書き起こし作業者端末30(書き起こし作業者端末30A、30B、30C)のそれぞれに対して複数の分割音声データが分配される。
ステップS20において、複数の書き起こし作業者端末30において、書き起こし作業者が分割音声データの書き起こしを行い分割音声データの書き起こし結果である分割テキストデータが生成される。分割テキストデータには、分割音声データに対応するファイル名(A0001.txt、A0002.txt…)が付与される。ステップS21において、複数の書き起こし作業者端末30から分割音声データ分配装置20に分割テキストデータが送信される。ステップS22において、分割音声データ分配装置20で分割テキストデータが受信され、分割テキストデータが記憶部23に保存される。
ステップS20において、複数の書き起こし作業者端末30において、書き起こし作業者が分割音声データの書き起こしを行い分割音声データの書き起こし結果である分割テキストデータが生成される。分割テキストデータには、分割音声データに対応するファイル名(A0001.txt、A0002.txt…)が付与される。ステップS21において、複数の書き起こし作業者端末30から分割音声データ分配装置20に分割テキストデータが送信される。ステップS22において、分割音声データ分配装置20で分割テキストデータが受信され、分割テキストデータが記憶部23に保存される。
ステップS23において、書き起こし結果通知部24が、分割テキストデータ(A0001.txt)が記憶部23に保存されたことを検知すると、当該分割テキストデータに対応する分割音声データの書き起こし依頼者を分割テキストファイル名から判断する。書き起こし結果通知部24は、分割テキストファイル名から判断した依頼者(A社)の書き起こしテキスト作成装置10Aに書き起こし作業完了通知を送信する。ステップS24において、書き起こしテキスト作成装置10Aが書き起こし作業完了通知に対する返信として書き起こし結果取得要求を送信する。ステップS25において、分割音声データ分配装置20は、書き起こし結果取得要求を受信し、記憶部23から必要な書き起こし結果(分割テキストデータ)を読み出す。ステップS26において、分割音声データ分配装置20から書き起こしテキスト作成装置10Aに、分割音声データの書き起こし結果である分割テキストデータを送信する。ステップS23からステップS26の処理は、書き起こし作業を依頼した複数の分割音声データの全ての書き起こし結果を取得するまで繰り返される。
ステップS27において、書き起こしテキスト作成装置10Aの結合テキストデータ生成部15において、受信した複数の分割テキストデータを結合する。これにより、音声データの書き起こし結果である結合テキストデータが生成される。結合テキストデータが生成されると、ステップS28において、ユーザUに対して書き起こし完了通知が送信される。書き起こし完了通知は、例えば、書き起こしテキスト作成装置10Aの表示部(図示せず)に表示されたり、ユーザUの使用するメールアドレスに対してメールを送信する等の方法によって通知される。
以上により、ユーザが依頼した音声データの書き起こしテキストが作成される。
以上により、ユーザが依頼した音声データの書き起こしテキストが作成される。
なお、ステップS15は、音声データを分割して複数の分割音声データを生成する分割音声データ生成工程に対応する。ステップS17は、分割音声データ生成工程で生成された分割音声データを、複数の書き起こし作業者の端末装置に対して、分割音声データの分割順が不連続となるように分配する分割音声データ分配工程に対応する。ステップS25、ステップS26は、複数の書き起こし作業者の端末装置から、分割音声データ分配工程で分配された複数の分割音声データの書き起こし結果である複数の分割テキストデータを受信する分割テキストデータ受信工程に対応する。ステップS27は、分割テキストデータ受信工程で受信した複数の分割テキストデータを結合して、音声データの書き起こし結果である結合テキストデータを生成する結合テキストデータ生成工程に対応する。
(1−2−2)分割音声データ生成部における音声データ分割方法
図3、図4(A)及び図4(B)、図5(A)及び図5(B)、図6(A)及び図6(B)並びに図7(A)、図7(B)及び図7(C)を参照して、ステップS15における音声データの分割処理で用いられる音声データ分割方法について詳細に説明する。音声データの分割処理は、書き起こしテキスト作成装置10Aの分割音声データ生成部11において実行される。
図3は、音声データの分割処理の流れを示すフローチャートである。
図3、図4(A)及び図4(B)、図5(A)及び図5(B)、図6(A)及び図6(B)並びに図7(A)、図7(B)及び図7(C)を参照して、ステップS15における音声データの分割処理で用いられる音声データ分割方法について詳細に説明する。音声データの分割処理は、書き起こしテキスト作成装置10Aの分割音声データ生成部11において実行される。
図3は、音声データの分割処理の流れを示すフローチャートである。
図4(A)及び図4(B)、図5(A)及び図5(B)、図6(A)及び(B)、並びに図7(A)、図7(B)及び図7(C)は、音声データの分割の具体例を示す模式図である。
図4(A)は、分割前の音声データの音声波形イメージを示し、図4(B)は、分割前の音声データの発話内容を示している。
図5(A)は、1回目の分割処理時(音声データの分割処理時)に分割を行う位置である、無音時間700ms以上の無音区間sc1が示された音声波形イメージである。図5(B)は、1回目の分割処理後の各分割音声データF1−1,F1−2の発話内容を示している。
図4(A)は、分割前の音声データの音声波形イメージを示し、図4(B)は、分割前の音声データの発話内容を示している。
図5(A)は、1回目の分割処理時(音声データの分割処理時)に分割を行う位置である、無音時間700ms以上の無音区間sc1が示された音声波形イメージである。図5(B)は、1回目の分割処理後の各分割音声データF1−1,F1−2の発話内容を示している。
図6(A)は、2回目の分割処理時(分割音声データF1−1,F1−2に対する分割処理時)に分割を行う位置である、無音時間300ms以上の無音区間sc2〜sc8が示された音声波形イメージである。図6(B)は、2回目の分割処理後の各分割音声データF2−1〜F2−10の発話内容を示している。
図7(A)、図7(B)及び図7(C)は、3回目の分割処理時(分割音声データF2−1〜F2−10に対する分割処理時)に分割を行う位置である、無音時間70ms以上の無音区間sc9〜sc11が示された音声波形イメージである。図7(B)は、図7(A)の一部を拡大して示している。図7(C)は、3回目の分割処理後の各分割音声データの発話内容を示している。
図7(A)、図7(B)及び図7(C)は、3回目の分割処理時(分割音声データF2−1〜F2−10に対する分割処理時)に分割を行う位置である、無音時間70ms以上の無音区間sc9〜sc11が示された音声波形イメージである。図7(B)は、図7(A)の一部を拡大して示している。図7(C)は、3回目の分割処理後の各分割音声データの発話内容を示している。
[分割処理用データのデータ構造]
音声データの分割処理時には、音声データに対応するファイルリストを分割して、生成が予定される分割音声データに対応する複数のファイルリストが生成される。最終的にファイルリストが確定すると、各ファイルリストに基づいて、音声データの分割処理が行われ、分割音声データが生成される。
分割処理の開始前においては、音声データに対応するファイルリストが保存されている。
分割処理中において、ファイルリストは、音声データの分割数分(分割音声データ数)だけ生成される。各ファイルリストには、当該ファイルリストを参照して生成される分割音声データが、分割前の音声データのどの区間に該当するかを示す情報(開始位置及び終了位置)が規定されている。ファイルリストを分割する際には、音声データの開始及び終端の位置でファイルリストを分割する。
音声データの分割処理では、複数のファイルリストの開始時間及び終了時間に従って、元の音声データから分割音声データの生成を行う。
音声データの分割処理時には、音声データに対応するファイルリストを分割して、生成が予定される分割音声データに対応する複数のファイルリストが生成される。最終的にファイルリストが確定すると、各ファイルリストに基づいて、音声データの分割処理が行われ、分割音声データが生成される。
分割処理の開始前においては、音声データに対応するファイルリストが保存されている。
分割処理中において、ファイルリストは、音声データの分割数分(分割音声データ数)だけ生成される。各ファイルリストには、当該ファイルリストを参照して生成される分割音声データが、分割前の音声データのどの区間に該当するかを示す情報(開始位置及び終了位置)が規定されている。ファイルリストを分割する際には、音声データの開始及び終端の位置でファイルリストを分割する。
音声データの分割処理では、複数のファイルリストの開始時間及び終了時間に従って、元の音声データから分割音声データの生成を行う。
[フローチャート]
図3に示すフローチャートを、図4(A)及び図4(B)、図5(A)及び図5(B)、図6(A)及び図6(B)並びに図7(A)、図7(B)及び図7(C)を参照しながら詳細に説明する。
時間長20秒の音声データの分割処理が開始されると、ステップS31において、音声データの音声レベルの算出処理が実行され、処理がステップS32に移る。算出された音声レベルは、図4(A)に示されるような音声データの音声波形イメージで示される。
ステップS32において、音声データの無音区間の位置及び無音時間の取得処理が実行され、処理がステップS33に移る。ステップS33において、分割処理の準備として、ファイルリストが初期化され、処理がステップS34に移る。
図3に示すフローチャートを、図4(A)及び図4(B)、図5(A)及び図5(B)、図6(A)及び図6(B)並びに図7(A)、図7(B)及び図7(C)を参照しながら詳細に説明する。
時間長20秒の音声データの分割処理が開始されると、ステップS31において、音声データの音声レベルの算出処理が実行され、処理がステップS32に移る。算出された音声レベルは、図4(A)に示されるような音声データの音声波形イメージで示される。
ステップS32において、音声データの無音区間の位置及び無音時間の取得処理が実行され、処理がステップS33に移る。ステップS33において、分割処理の準備として、ファイルリストが初期化され、処理がステップS34に移る。
ステップS34において、音声データ(2回目以降は分割音声データ)の平均時間長が所定の目標範囲内にあるか否かを判断し、音声データの平均時間長が所定の目標範囲内にない場合(ステップS34のNo)、処理がステップS35に移る。ステップS34において、音声データの平均時間長が所定の目標範囲内にある場合(ステップS34のYes)、処理がステップS38に移る。分割音声データの平均時間長の目標値xは、例えば1秒とされる。目標値xが1秒の場合、分割音声データの平均時間長の目標範囲は、例えば0.8秒以上1.2秒以下であることが好ましい。
ステップS35において、分割処理を行う無音区間を決定するために、分割処理を行う無音区間の無音時間を設定し、処理がステップS36に移る。ステップS35において、無音時間は、1回目に初期値を設定し、2回目以降は前回の設定値よりも短い時間を設定する。ステップS36において、ファイルリストを無音区間で分割して更新し、処理がステップS37に移る。
ステップS35において、分割処理を行う無音区間を決定するために、分割処理を行う無音区間の無音時間を設定し、処理がステップS36に移る。ステップS35において、無音時間は、1回目に初期値を設定し、2回目以降は前回の設定値よりも短い時間を設定する。ステップS36において、ファイルリストを無音区間で分割して更新し、処理がステップS37に移る。
ステップS37において、ファイルリストの分割が音声データの終端まで行われたか否かが判断され、ファイルリストの分割が音声データの終端まで行われていないと判断された場合(ステップS37のNo)、処理がステップS36に戻って分割処理が継続される。
ステップS37において、ファイルリストの分割が音声データの終端まで行われたと判断された場合(ステップS37のYes)、処理がステップS34に戻る。ステップS34からステップS37の処理は、生成が予定される分割音声データの平均時間長が目標範囲内となるまで繰り返される。
ステップS37において、ファイルリストの分割が音声データの終端まで行われたと判断された場合(ステップS37のYes)、処理がステップS34に戻る。ステップS34からステップS37の処理は、生成が予定される分割音声データの平均時間長が目標範囲内となるまで繰り返される。
ステップS34において、音声データの平均時間長が所定の目標範囲内にある場合(ステップS34のYes)、処理がステップS38に移り、確定したファイルリストに従って音声データが分割され、分割処理が終了する。
以下、具体的に音声データの分割処理を説明する。以下の説明では、時間長20秒の音声データを分割し、分割音声データの平均時間長の目標値が1秒(目標範囲0.8秒以上1.2秒以下)となるようにするものとする。また、以下の説明では、図3のステップS34〜ステップS38の処理についてのみ説明する。
ステップS34において、音声データの時間長20秒が目標範囲(0.8秒以上1.2秒以下)外であると判断され(ステップS34のNo)、処理がステップS35に移る。ステップS35において、分割処理を行う無音区間を決定するために、分割処理を行う無音区間の無音時間(初期値)を設定し、処理がステップS36に移る。例えば、ステップS35では、1回目の分割処理において分割を行う無音区間の無音時間(初期値)を700ms以上に設定する。ステップS36及びステップS37において音声データの終端までファイルリストが無音区間で分割され、処理がステップS34に戻る。ステップS36及びステップS37では、図5(A)に示す無音時間700ms以上の無音区間sc1でファイルリストが分割される。
ステップS34において、音声データの時間長20秒が目標範囲(0.8秒以上1.2秒以下)外であると判断され(ステップS34のNo)、処理がステップS35に移る。ステップS35において、分割処理を行う無音区間を決定するために、分割処理を行う無音区間の無音時間(初期値)を設定し、処理がステップS36に移る。例えば、ステップS35では、1回目の分割処理において分割を行う無音区間の無音時間(初期値)を700ms以上に設定する。ステップS36及びステップS37において音声データの終端までファイルリストが無音区間で分割され、処理がステップS34に戻る。ステップS36及びステップS37では、図5(A)に示す無音時間700ms以上の無音区間sc1でファイルリストが分割される。
1回目のファイルリストの分割により、図5(B)に示す時間長及び発話内容の2つの分割音声データF1−1,F1−2の生成が予定される。分割音声データF1−1,F1−2の平均時間長は、9.8秒である。
ステップS34において、1回目のファイルリストの分割によって生成が予定される分割音声データF1−1,F1−2の平均時間長(9.8秒)が所定の目標範囲外であると判断され(ステップS34のNo)、処理がステップS35に移る。ステップS35において、無音区間の無音時間が前回設定された700msよりも短い300msに設定され、処理がステップS36に移る。ステップS36及びステップS37において音声データの終端までファイルリストが分割され、処理がステップS34に戻る。ステップS36及びステップS37では、図6(A)に示す無音時間300ms以上の無音区間sc2〜sc8でファイルリストが分割される。
2回目のファイルリストの分割により、図6(B)に示す時間長及び発話内容の10個の分割音声データF2−1〜F2−10の生成が予定される。分割音声データF2−1〜F2−10の平均時間長は、1.85秒である。
2回目のファイルリストの分割により、図6(B)に示す時間長及び発話内容の10個の分割音声データF2−1〜F2−10の生成が予定される。分割音声データF2−1〜F2−10の平均時間長は、1.85秒である。
ステップS34において、2回目のファイルリストの分割によって生成が予定される分割音声データF2−1〜F2−10の平均時間長(1.85秒)が目標範囲外であると判断され(ステップS34のNo)、処理がステップS35に移る。ステップS35において、無音区間の無音時間が前回設定された300msよりも短い70msに設定され、処理がステップS36に移る。ステップS36及びステップS37において音声データの終端までファイルリストが分割され、処理がステップS34に戻る。ステップS36及びステップS37では、図7(B)に示す無音時間70ms以上の無音区間sc9〜sc11でファイルリストが分割される。
3回目のファイルリストの分割により、図7(C)に示す時間長及び発話内容の15個の分割音声データF3−1〜F3−15の生成が予定される。分割音声データF3−1〜F3−15の平均時間長は、1.19秒である。
3回目のファイルリストの分割により、図7(C)に示す時間長及び発話内容の15個の分割音声データF3−1〜F3−15の生成が予定される。分割音声データF3−1〜F3−15の平均時間長は、1.19秒である。
ステップS34において、3回目のファイルリストの分割によって生成が予定される分割音声データF3−1〜F3−15の平均時間長(1.19秒)が目標範囲内であると判断され(ステップS34のYes)、処理がステップS38に移る。ステップS38において、確定したファイルリスト(3回目の分割後のファイルリスト)に従って音声データが分割されることにより分割音声データF3−1〜F3−15が生成され、分割処理が終了する。
[分割音声データの冒頭及び末尾の無音区間の設定]
分割音声データ生成部11は、無音区間で音声データの分割を行う際に、有音区間の前後に極短い無音区間が存在するようにして分割音声データを生成することができる。この有音区間の前後の無音区間(分割音声データの冒頭及び末尾の無音区間)の決定方法について、図8(A)から図8(C)を参照して説明する。
図8(A)から図8(C)は、音声データ中の2つの有音区間V1、V2及び2つの有音区間V1、V2の間にある無音区間La、Lb又はLcを模式的に示す模式図である。この有音区間の前後の無音区間の決定方法は、音声ファイルの分割位置を決定する際に適用される。以下、有音区間の前後に出来るだけ300msの無音区間が存在するようにして音声データを分割する方法について説明する。
分割音声データ生成部11は、無音区間で音声データの分割を行う際に、有音区間の前後に極短い無音区間が存在するようにして分割音声データを生成することができる。この有音区間の前後の無音区間(分割音声データの冒頭及び末尾の無音区間)の決定方法について、図8(A)から図8(C)を参照して説明する。
図8(A)から図8(C)は、音声データ中の2つの有音区間V1、V2及び2つの有音区間V1、V2の間にある無音区間La、Lb又はLcを模式的に示す模式図である。この有音区間の前後の無音区間の決定方法は、音声ファイルの分割位置を決定する際に適用される。以下、有音区間の前後に出来るだけ300msの無音区間が存在するようにして音声データを分割する方法について説明する。
図8(A)は、音声データの2つの有音区間V1、V2の間に、600ms以上の無音区間Laがある場合を例示している。この場合、分割音声データ生成部11は、有音区間V1の末尾から300ms後の位置(無音区間La内の位置)が分割音声データF1の終端位置となるようにファイルリストの分割を行う。また、分割音声データ生成部11は、有音区間V2の冒頭から300ms前の位置(無音区間La内の位置)が分割音声データF2の冒頭位置となるようにファイルリストの分割を行う。このとき、有音区間V1を含む分割音声データF1の最後部の無音区間L1と、有音区間V2を含む分割音声データF2の冒頭部の無音区間L2とは重複しない。また、無音区間Laの一部は、いずれの分割音声データにも含まれない。このため、書き起こし作業者に送信する分割音声データに含まれる書き起こしが不要な無音区間が減少するため好ましい。
図8(B)は、音声データの2つの有音区間V1、V2の間に、300ms以上600ms未満の無音区間Lbがある場合を例示している。この場合、分割音声データ生成部11は、有音区間V1の末尾から300ms後の位置(無音区間Lb内の位置)が分割音声データF1の終端位置となるようにファイルリストの分割を行う。また、分割音声データ生成部11は、有音区間V2の冒頭から300ms前の位置(無音区間Lb内の位置)が分割音声データF2の冒頭位置となるようにファイルリストの分割を行う。このとき、有音区間V1を含む分割音声データF1の最後部の無音区間L1と、有音区間V2を含む分割音声データF2の冒頭部の無音区間L2とは重複する。
例えば、無音区間Lbの長さが350msの場合、単純に無音区間の中央で音声データを分割すると、分割音声データF1の最後部の無音区間L1及び分割音声データF2の冒頭部の無音区間L2の長さはそれぞれ175msとなる。この場合、無音区間L1、L2の長さがやや短く、分割音声データの聞き取りやすさが十分でないことがある。分割音声データF1の無音区間L1と、分割音声データF2の無音区間L2との一部を重複させて分割音声データを生成することで、無音区間L1、L2のいずれも300msとすることができ、分割音声データの聞き取りやすさを向上させることができる。
例えば、無音区間Lbの長さが350msの場合、単純に無音区間の中央で音声データを分割すると、分割音声データF1の最後部の無音区間L1及び分割音声データF2の冒頭部の無音区間L2の長さはそれぞれ175msとなる。この場合、無音区間L1、L2の長さがやや短く、分割音声データの聞き取りやすさが十分でないことがある。分割音声データF1の無音区間L1と、分割音声データF2の無音区間L2との一部を重複させて分割音声データを生成することで、無音区間L1、L2のいずれも300msとすることができ、分割音声データの聞き取りやすさを向上させることができる。
図8(C)は、音声データの2つの有音区間V1、V2の間に、300ms未満の無音区間Lcがある場合を例示している。この場合、分割音声データ生成部11は、有音区間V1を含む分割音声データF1を生成する際に、有音区間V2の直前の位置(無音区間Lc内の位置)が分割音声データF1の終端位置となるようにファイルリストの分割を行う。また、分割音声データ生成部11は、有音区間V2を含む分割音声データF2を生成する際に、有音区間V1の直後の位置(無音区間Lc内の位置)が分割音声データF1の冒頭位置となるようにファイルリストの分割を行う。このとき、有音区間V1を含む分割音声データF1の最後部の無音区間と、有音区間V2を含む分割音声データF2の冒頭部の無音区間とは重複する。
例えば、無音区間Lcの長さが200msの場合、単純に無音区間の中央で音声データを分割すると、分割音声データF1の最後部の無音区間L1及び分割音声データF2の冒頭部の無音区間L2の長さはそれぞれ100msとなる。この場合、無音区間L1、L2の長さが非常に短く、分割音声データの聞き取りやすさが十分でないことがある。分割音声データF1の無音区間L1と、分割音声データF2の無音区間L2とを完全に重複させて分割音声データを生成することで、無音区間L1、L2のいずれも無音区間Lcと同じ200msの長さを確保できる。このため、無音区間L1、L2の長さが無音区間Lc内で可能な限り長く確保することができ、分割音声データの聞き取りやすさを向上させることができる。
(1−2−3)結合テキストデータ生成部における結合テキストデータ生成方法
結合テキストデータ生成部15は、分割音声データの書き起こし結果である分割テキストデータを、分割音声データの分割順に対応する順番で結合して結合テキストデータを生成する。分割テキストデータには、例えば、分割順に対応する分割音声データの分割ファイル名(例えば分割順に「0001.wav」「0002.wav」・・・)と関連する分割ファイル名(例えば分割順に「0001.txt」「0002.txt」・・・)が付与されている。このため、結合テキストデータ生成部15は、分割テキストデータの分割ファイル名から分割音声データの分割順を判定し、この分割順を分割テキストデータの結合順として分割テキストデータの結合を行う。
結合テキストデータ生成部15は、分割音声データの書き起こし結果である分割テキストデータを、分割音声データの分割順に対応する順番で結合して結合テキストデータを生成する。分割テキストデータには、例えば、分割順に対応する分割音声データの分割ファイル名(例えば分割順に「0001.wav」「0002.wav」・・・)と関連する分割ファイル名(例えば分割順に「0001.txt」「0002.txt」・・・)が付与されている。このため、結合テキストデータ生成部15は、分割テキストデータの分割ファイル名から分割音声データの分割順を判定し、この分割順を分割テキストデータの結合順として分割テキストデータの結合を行う。
ここで、分割音声データ生成部11において、ある分割音声データの最後部の音声と、分割順がこの分割音声データの次である他の分割音声データの最初部の音声とが重複するようにして音声データが分割される場合がある。この場合、結合テキストデータ生成部15は、連続する分割テキストデータを以下のようにして結合する。
図9は、結合テキストデータ生成部15における分割テキストデータ結合の具体例を示す図である。特に、図9は、複数の分割音声データの時間長がそれぞれ同一となるように音声データを分割したり、話者が早口であったり等の理由で無音区間が極端に短い等の理由により音声データを音節単位で適切に区切れない場合の例を示している。
図9を参照して、一の分割音声データと、分割順が一の分割音声データの次である他の分割音声データの書き起こし結果の結合について説明する。以下、発話内容B「今日はいい天気ですね。」を含む分割音声データBの書き起こし結果と、発話内容C「このあとの予定はどうなっていますか?」を含む分割音声データCの書き起こし結果との結合について説明する。分割音声データCの分割順は、分割音声データBの次の順番である。
図9を参照して、一の分割音声データと、分割順が一の分割音声データの次である他の分割音声データの書き起こし結果の結合について説明する。以下、発話内容B「今日はいい天気ですね。」を含む分割音声データBの書き起こし結果と、発話内容C「このあとの予定はどうなっていますか?」を含む分割音声データCの書き起こし結果との結合について説明する。分割音声データCの分割順は、分割音声データBの次の順番である。
分割音声データBの書き起こし結果の末尾部分が「・・・ですね。こ(desune ko)」であり、分割音声データCの書き起こし結果の冒頭部分が「え。この・・・(e kono)」であるものとする。この2つの結果を比較すると、分割音声データBの書き起こし結果の末尾の「e ko」と、分割音声データCの書き起こし結果の冒頭の「e ko」が重複している。このため、「e ko」の部分を分割音声データB,Cの重複部分として書き起こし結果の結合を行うことができる。分割音声データB,Cの書き起こし結果の結合により、音声データの切れ目に対応する部分の書き起こし結果は「・・・ですね。この・・・(desune kono)」となる。分割音声データCの書き起こし結果の冒頭部分は「え。この・・・(e kono)」であるが、分割音声データBの書き起こし結果の末尾部分と比較して補完することにより、本来の「・・・ね。この・・・(ne kono)」という書き起こし結果を得ることができ、音声の切れ目に対応する部分の書き起こし再現性を向上させることができる。
以上のように、音声データが音節単位で適切に区切れない場合は、分割音声データの一つを書き起こすのみでは正確な書き起こし結果が得られない場合もある。しかしながら、上述した方法によって書き起こし結果を得ることで、特に分割音声データの冒頭及び末尾部分について最終的に正しい書き起しテキストを得ることができる。
なお、分割音声データBの末尾部分と分割音声データCの冒頭部分との比較および結合は、例えば以下のように既存の技術を組み合わせることで人手を介さずにほぼ自動で行うことができる。
まず、書き起こし結果B、Cの各々に対して形態素解析を行って読み情報(「ですね、こ」、「え。この」)を取得し、さらに読み情報を音素情報(desuneko、ekono)に変換する。次に、得られた書き起こし結果B、Cの各々の音素の情報のほか、分割音声データBおよびC、および音響モデルを用いて、分割音声データB、Cの各々について、音素と音声データの時刻情報との対応付け(音素アライメント)を行う。次に、得られた音素−時刻情報の対応付けの情報のほか、分割音声データBとCの重複部分の時間長の情報を用いて、分割音声データBとCの重複部分について、時刻情報を考慮して分割音声データBの音素系列とCの音素系列との対応付け(比較)を行う。(例えば、重複部分の各音素e、k、oについて、音とその時刻情報の類似度を比較する。)比較の結果、それらの音素が一致(対応)すると判断できる場合に、書き起こし結果の結合を行う。
なお、分割音声データBとCの重複部分が一致(対応)しないと判断した場合には、重複しない音素部分について、そのうち一方の音素(例えば音響的な尤度がより高い音素)を用いて書き起こし結果を結合するようにしてもよい。
まず、書き起こし結果B、Cの各々に対して形態素解析を行って読み情報(「ですね、こ」、「え。この」)を取得し、さらに読み情報を音素情報(desuneko、ekono)に変換する。次に、得られた書き起こし結果B、Cの各々の音素の情報のほか、分割音声データBおよびC、および音響モデルを用いて、分割音声データB、Cの各々について、音素と音声データの時刻情報との対応付け(音素アライメント)を行う。次に、得られた音素−時刻情報の対応付けの情報のほか、分割音声データBとCの重複部分の時間長の情報を用いて、分割音声データBとCの重複部分について、時刻情報を考慮して分割音声データBの音素系列とCの音素系列との対応付け(比較)を行う。(例えば、重複部分の各音素e、k、oについて、音とその時刻情報の類似度を比較する。)比較の結果、それらの音素が一致(対応)すると判断できる場合に、書き起こし結果の結合を行う。
なお、分割音声データBとCの重複部分が一致(対応)しないと判断した場合には、重複しない音素部分について、そのうち一方の音素(例えば音響的な尤度がより高い音素)を用いて書き起こし結果を結合するようにしてもよい。
(1−3)書き起こしテキスト作成支援プログラム
第1の実施形態の書き起こしテキスト作成支援プログラムは、書き起こしテキスト作成支援システム1を構成するコンピュータを、音声データを分割して複数の分割音声データを生成する分割音声データ生成部11、複数の分割音声データを分割順が不連続となるように分割音声データ分配装置20に送信する送信部13、複数の分割音声データを、複数の書き起こし作業者端末30A,30B,30Cに分配する分割音声データ分配装置20、複数の分割音声データの書き起こし結果である複数の分割テキストデータを受信する受信部14、及び受信した複数の分割テキストデータを結合して音声データの書き起こし結果である結合テキストデータを生成する結合テキストデータ生成部15
として機能させる。
第1の実施形態の書き起こしテキスト作成支援プログラムは、書き起こしテキスト作成支援システム1を構成するコンピュータを、音声データを分割して複数の分割音声データを生成する分割音声データ生成部11、複数の分割音声データを分割順が不連続となるように分割音声データ分配装置20に送信する送信部13、複数の分割音声データを、複数の書き起こし作業者端末30A,30B,30Cに分配する分割音声データ分配装置20、複数の分割音声データの書き起こし結果である複数の分割テキストデータを受信する受信部14、及び受信した複数の分割テキストデータを結合して音声データの書き起こし結果である結合テキストデータを生成する結合テキストデータ生成部15
として機能させる。
(1−4)変形例
第1の実施形態の書き起こしテキスト作成支援システム1は、分割音声データ分配装置20から書き起こし作業者端末30に対して分割音声データを分配送信するように構成されているが、このような構成に限らない。例えば、分割音声データ分配装置20が書き起こし作業者端末30に分割音声データを分配送信せず、書き起こし作業者端末30から分割音声データ分配装置20へアクセスすることにより書き起こし作業者が分割音声データをストリーミング方式等により確認できるようにしてもよい。この場合、書き起こし作業者端末30に分割音声データが保存されないため、分割音声データの流出等を防止することができる。
第1の実施形態の書き起こしテキスト作成支援システム1は、分割音声データ分配装置20から書き起こし作業者端末30に対して分割音声データを分配送信するように構成されているが、このような構成に限らない。例えば、分割音声データ分配装置20が書き起こし作業者端末30に分割音声データを分配送信せず、書き起こし作業者端末30から分割音声データ分配装置20へアクセスすることにより書き起こし作業者が分割音声データをストリーミング方式等により確認できるようにしてもよい。この場合、書き起こし作業者端末30に分割音声データが保存されないため、分割音声データの流出等を防止することができる。
また、分割ファイル名付与部12にて付与する分割ファイル名として、書き起こし作業依頼者を示す固有の英数字(依頼者がA社の場合に「A」など)を依頼者情報として含めるものとして説明したが、依頼者情報をファイル名に含めないようにしてもよい。例えば、分割音声データを書き起こしテキスト作成装置10から分割音声データ分配装置20へ送信する度に、各音声データに対して依頼者を特定できないようなID(分割音声データID)を分割音声データ分配装置20において生成し、書き起こしテキスト作成装置10に通知する。この場合、分割音声データのファイル名を、分割音声データIDを用いたファイル名に変更して分割音声データ分配装置20内に記憶する。以降はその分割音声データIDを用いて分割音声データのやりとりを行う。これにより、依頼者情報と分割音声データとの対応付けがより希薄となり、分割音声データ分配装置20に起因する機密情報漏洩リスクを低減することができる。
(1−5)第1の実施形態の効果
第1の実施形態に記載の書き起こしテキスト作成支援システムでは、以下の効果を有する。
(1)音声データを分割した分割音声データを、分割順とならないように又は分割音声データの一部を間引いて送信することにより、書き起こし作業者経由で機密情報が含まれた分割音声データが漏えいしても、内容が把握されにくくなる。
(2)分割音声データを、音声データを音節単位に分割して生成することにより、分割音声データの冒頭部及び末尾部の書き起こし精度が向上する。
(3)分割音声データを、有音区間の前後に極短い無音区間が存在するようにして生成することにより、分割音声データの冒頭部及び末尾部の書き起こし精度がより向上する。
(4)分割音声データの平均時間長を1秒程度とすることで、書き起こし作業者に分割音声の発話内容が把握されにくく、かつ一定の書き起こし精度を維持することができる。
(5)分割順が連続する分割音声データの一方の最後部の音声と、他方の最初部の音声とが重複するようにして音声データを分割して、分割音声データを生成することにより、音声データの切れ目部分における書き起こし再現性を向上させることができる。
第1の実施形態に記載の書き起こしテキスト作成支援システムでは、以下の効果を有する。
(1)音声データを分割した分割音声データを、分割順とならないように又は分割音声データの一部を間引いて送信することにより、書き起こし作業者経由で機密情報が含まれた分割音声データが漏えいしても、内容が把握されにくくなる。
(2)分割音声データを、音声データを音節単位に分割して生成することにより、分割音声データの冒頭部及び末尾部の書き起こし精度が向上する。
(3)分割音声データを、有音区間の前後に極短い無音区間が存在するようにして生成することにより、分割音声データの冒頭部及び末尾部の書き起こし精度がより向上する。
(4)分割音声データの平均時間長を1秒程度とすることで、書き起こし作業者に分割音声の発話内容が把握されにくく、かつ一定の書き起こし精度を維持することができる。
(5)分割順が連続する分割音声データの一方の最後部の音声と、他方の最初部の音声とが重複するようにして音声データを分割して、分割音声データを生成することにより、音声データの切れ目部分における書き起こし再現性を向上させることができる。
2.第2の実施形態
本発明の第2の実施形態に係る書き起こしテキスト作成支援システム、分割音声データ分配装置、書き起こしテキスト作成支援方法及び書き起こしテキスト作成支援プログラムについて、図10から図12を参照して説明する。第2の実施形態では、分割音声データに基づく発話者や発話内容の認識性をより低くするために、音声変調、分割音声データのファイル名の変更及び分割音声データを分割順に対応しない順に結合した分配用データの作成の少なくとも1つを行う例について説明する。
まず、第2の実施形態に係る書き起こしテキスト作成支援システムの構成について図10を用いて説明する。
本発明の第2の実施形態に係る書き起こしテキスト作成支援システム、分割音声データ分配装置、書き起こしテキスト作成支援方法及び書き起こしテキスト作成支援プログラムについて、図10から図12を参照して説明する。第2の実施形態では、分割音声データに基づく発話者や発話内容の認識性をより低くするために、音声変調、分割音声データのファイル名の変更及び分割音声データを分割順に対応しない順に結合した分配用データの作成の少なくとも1つを行う例について説明する。
まず、第2の実施形態に係る書き起こしテキスト作成支援システムの構成について図10を用いて説明する。
(2−1)書き起こしテキスト作成支援システムの構成
図10は、第2の実施形態における書き起こしテキスト作成支援システム101の概略構成を示す図である。図10に示すように、第2の実施形態における書き起こしテキスト作成支援システム101は、複数の書き起こしテキスト作成装置110(書き起こしテキスト作成装置110A、110B、110C)を備えている。また、第2の実施形態における書き起こしテキスト作成支援システム101は、分割音声データ分配装置20及び複数の書き起こし作業者端末30(書き起こし作業者端末30A、30B、30C)を備えている。
図10は、第2の実施形態における書き起こしテキスト作成支援システム101の概略構成を示す図である。図10に示すように、第2の実施形態における書き起こしテキスト作成支援システム101は、複数の書き起こしテキスト作成装置110(書き起こしテキスト作成装置110A、110B、110C)を備えている。また、第2の実施形態における書き起こしテキスト作成支援システム101は、分割音声データ分配装置20及び複数の書き起こし作業者端末30(書き起こし作業者端末30A、30B、30C)を備えている。
複数の書き起こしテキスト作成装置110は、分割音声データ分配装置20とネットワーク(図示せず)を介して接続されている。
なお、以下、書き起こしテキスト作成装置110、書き起こし作業者端末30の個数は、図10中に示す3個に限定されるものではない。
また、複数の書き起こし作業者端末30(書き起こし作業者端末30A、30B、30C)は、第1の実施形態に記載の複数の書き起こし作業者端末30(書き起こし作業者端末30A、30B、30C)と同等の機能、構成を有するため、詳細な説明を省略する。
なお、以下、書き起こしテキスト作成装置110、書き起こし作業者端末30の個数は、図10中に示す3個に限定されるものではない。
また、複数の書き起こし作業者端末30(書き起こし作業者端末30A、30B、30C)は、第1の実施形態に記載の複数の書き起こし作業者端末30(書き起こし作業者端末30A、30B、30C)と同等の機能、構成を有するため、詳細な説明を省略する。
[書き起こしテキスト作成装置]
書き起こしテキスト作成装置110A、110B、110Cは、それぞれ、例えば書き起こしテキスト作成支援システム101を利用するA社、B社、C社に設置されている。
書き起こしテキスト作成装置110(書き起こしテキスト作成装置110A、110B、110C)のそれぞれは、互いに同様の機能及び構成を有している。
書き起こしテキスト作成装置110A、110B、110Cは、それぞれ、例えば書き起こしテキスト作成支援システム101を利用するA社、B社、C社に設置されている。
書き起こしテキスト作成装置110(書き起こしテキスト作成装置110A、110B、110C)のそれぞれは、互いに同様の機能及び構成を有している。
書き起こしテキスト作成装置110は、分割音声データ生成部11と、分割ファイル名付与部112と、送信部13と、受信部14と、結合テキストデータ生成部115と、音声変調部16と、分配用音声データ生成部17と、を有している。
このうち、分割音声データ生成部11、送信部13及び受信部14は、第1の実施形態に記載の分割音声データ生成部11、送信部13及び受信部14と同様の機能、構成を有しているため、説明を省略する。
このうち、分割音声データ生成部11、送信部13及び受信部14は、第1の実施形態に記載の分割音声データ生成部11、送信部13及び受信部14と同様の機能、構成を有しているため、説明を省略する。
分割ファイル名付与部112は、分割された複数の分割音声データのそれぞれに、分割音声データの分割順に対応しない分割ファイル名(以下、ランダム化ファイル名と記載する)を付与するリネーム部(図示せず)と、分割音声データのランダム化ファイル名を管理するランダム化ファイル名管理テーブル(図示せず)とを備えている。リネーム部は、複数の分割音声データのそれぞれに一旦分割音声データの分割順に対応した分割ファイル名を付与した後、分割音声データの分割順に対応しない分割ファイル名を再付与する(以下、この処理をリネーム処理と記載する場合がある)。
図11は、A社に管理される書き起こしテキスト作成装置110Aのランダム化ファイル名管理テーブルの一例を示す模式図である。
図11に示すように、ランダム化ファイル名管理テーブルは、分割音声データの分割順に対応した分割ファイル名と、リネーム部で再付与されたランダム化ファイル名とが対応付けられている。書き起こしテキスト作成装置110Aで生成された分割音声データの分割順に対応した分割ファイル名は、分割順に「A0001.wav」「A0002.wav」・・・等とされている。また、ランダム化ファイル名は、分割順に「A14u2fDdTq51BHled.wav」「A4fQzwxz3wV9953GP.wav」・・・等とされている。また、ランダム化ファイル名管理テーブルは、ランダム化ファイル名と、その分割音声データの時間長が関連付けられて管理されている。
図11に示すランダム化ファイル名は、ファイル名の上位1ケタが依頼者(A社)を示し、下位16桁がファイル固有の情報を示す、合計17桁のファイル名である。
図11に示すように、ランダム化ファイル名管理テーブルは、分割音声データの分割順に対応した分割ファイル名と、リネーム部で再付与されたランダム化ファイル名とが対応付けられている。書き起こしテキスト作成装置110Aで生成された分割音声データの分割順に対応した分割ファイル名は、分割順に「A0001.wav」「A0002.wav」・・・等とされている。また、ランダム化ファイル名は、分割順に「A14u2fDdTq51BHled.wav」「A4fQzwxz3wV9953GP.wav」・・・等とされている。また、ランダム化ファイル名管理テーブルは、ランダム化ファイル名と、その分割音声データの時間長が関連付けられて管理されている。
図11に示すランダム化ファイル名は、ファイル名の上位1ケタが依頼者(A社)を示し、下位16桁がファイル固有の情報を示す、合計17桁のファイル名である。
このようにすることで、複数の分割音声データを送信する際に、複数の分割音声データが漏えいした場合であっても、分割音声データの分割順が容易に把握されにくくなる。このため、複数の分割音声データから発話内容を取得されにくくなる。
音声変調部16は、元の音声データ又は分割音声データに対して音声変調を行うことにより、元の音声データ又は分割音声データに含まれる発話者の音声を異なる音声に変換する。音声変調部16を設けることにより、発話者が特定されにくくなる。特に、発話者が政治家、芸能人等の著名人や、経営者又は役職の位の高い従業員等の社内において容易に特定され得る人物の場合には、音声変調部16によって音声を変調することにより、音声データ又は分割音声データから発話者を特定されにくくすることについての効果が顕著となる。
分配用音声データ生成部17は、分割音声データ生成部11で生成された分割音声データを、分割順に連続しないように複数結合して分配用音声データを生成する。
例えば、分割音声データ生成部11において、1つの音声データが分割されて図11に示す15個の分割音声データが生成されたものとする。分配用音声データ生成部17は、分割音声データを「A0010.wav」、「A0012.wav」、「A0005.wav」、「A0009.wav」、「A0014.wav」、「A0006.wav」、「A0001.wav」、「A0004.wav」、「A0007.wav」、「A0015.wav」、「A0011.wav」、「A0003.wav」、「A0002.wav」、「A0013.wav」、「A0008.wav」の順に入れ替えて再結合し一つの分配用音声データを生成する。
例えば、分割音声データ生成部11において、1つの音声データが分割されて図11に示す15個の分割音声データが生成されたものとする。分配用音声データ生成部17は、分割音声データを「A0010.wav」、「A0012.wav」、「A0005.wav」、「A0009.wav」、「A0014.wav」、「A0006.wav」、「A0001.wav」、「A0004.wav」、「A0007.wav」、「A0015.wav」、「A0011.wav」、「A0003.wav」、「A0002.wav」、「A0013.wav」、「A0008.wav」の順に入れ替えて再結合し一つの分配用音声データを生成する。
これにより、分配用音声データ生成部17で生成された分配用音声データの発話内容は、「等々 えー 売上原価、販管費 取引 えー 等におけるですね 特にですね売上関係 あとま え、研究開発における社内工数 数字として出てまいりました について精査し、 えー精査するのと等々を このような数字が今現在 えーそれから関係会社間の」となる。このため、分配用音声データに含まれる会話から発話内容の全体像が把握されにくくなる。なお、このような分配用音声データは、分配用音声データ内で分割音声データが分割順とは異なる順に結合されている。このため、分割音声データ分配装置20が分配用音声データを分配することで、分割順が不連続となるように分割音声データが分配されることとなる。
また、上述した例では、分配用音声データ生成部17は、一つの音声データから分割されて生成された分割音声データの順番を入れ替えて再結合している。しかしながら、分配用音声データ生成部17は、二つ以上の音声データから分割されて生成された分割音声データを混合して再結合するようにしてもよい。すなわち、分配用音声データ生成部17は、二つ以上の会議の音声データを混合して、1又は2以上の分配用音声データを生成してもよい。
このような分配用音声データを書き起こし作業者に分配することで、書き起こし作業者が音声データの発話内容をより把握しにくくなる。また、分配用音声データ送信時に分配用音声データが漏えいした場合に、発話内容を取得されにくくなる。
このような分配用音声データを書き起こし作業者に分配することで、書き起こし作業者が音声データの発話内容をより把握しにくくなる。また、分配用音声データ送信時に分配用音声データが漏えいした場合に、発話内容を取得されにくくなる。
また、分配用音声データ生成部17は、音声データに含まれない音声を示す偽装データを結合して、分配用音声データを生成してもよい。また、分配用音声データに偽装データのみを含めるようにしてもよい。分配用音声データに偽装データを含めることにより、分配用音声データに含まれる会話から発話内容の全体像がより把握されにくくなる。
分配用音声データ生成部17は、図示しない管理部によって、分配用音声データ及びその分配用音声データを生成した際の分割音声データの結合順を管理している。これにより、後述する結合テキストデータ生成部115は、分配用音声データ生成部17を参照することで正しい書き起こし結果を得ることができる。
分配用音声データ生成部17は、図示しない管理部によって、分配用音声データ及びその分配用音声データを生成した際の分割音声データの結合順を管理している。これにより、後述する結合テキストデータ生成部115は、分配用音声データ生成部17を参照することで正しい書き起こし結果を得ることができる。
結合テキストデータ生成部115は、受信部14で受信された書き起こし結果(分割テキストデータ)を、分割音声データの分割順に対応する順番で結合して結合テキストデータを生成する。また、結合テキストデータ生成部115は、分配用音声データ生成部17によって生成された分配用音声データの書き起こし結果を得た場合、分配用音声データ生成部17を参照して、書き起こし結果のテキストを分割し、分割されたテキストを再度正しい順番で結合する。これにより、結合テキストデータ生成部115は結合テキストデータを生成する。
[その他]
第2の実施形態では、分割ファイル名付与部112、音声変調部16及び分配用音声データ生成部17の全てを備えた書き起こしテキスト作成支援システム101について説明したが、必ずしも全てを備える必要はない。すなわち、書き起こしテキスト作成装置110は、分割音声データ生成部11と、送信部13と、受信部14と、結合テキストデータ生成部115の他に、分割ファイル名付与部112、音声変調部16及び分配用音声データ生成部17のうちの少なくとも1つを有していてもよい。
第2の実施形態では、分割ファイル名付与部112、音声変調部16及び分配用音声データ生成部17の全てを備えた書き起こしテキスト作成支援システム101について説明したが、必ずしも全てを備える必要はない。すなわち、書き起こしテキスト作成装置110は、分割音声データ生成部11と、送信部13と、受信部14と、結合テキストデータ生成部115の他に、分割ファイル名付与部112、音声変調部16及び分配用音声データ生成部17のうちの少なくとも1つを有していてもよい。
(2−2)書き起こしテキスト作成支援方法
(2−2−1)書き起こしテキスト作成支援方法の全体構成
図12のシーケンスチャートを参照して、第2の実施形態における書き起こしテキスト作成支援方法の流れを説明する。
ユーザUが書き起こしテキスト作成支援プログラムの起動、ログインを行い(ステップS41)、書き起こしを依頼する音声データの登録、保存を行い(ステップS42,S43)、書き起こし依頼(ステップS44)に応じて音声データの分割を行う(ステップS45)処理については、第1の実施形態におけるステップS11〜S15の処理と同様であるため、詳細な説明を省略する。第2の実施形態のステップS41は第1の実施形態のステップS11に対応し、第2の実施形態のステップS42は第1の実施形態のステップS12に対応し、第2の実施形態のステップS43は第1の実施形態のステップS13に対応し、第2の実施形態のステップS44は第1の実施形態のステップS14に対応し、第2の実施形態のステップS45は第1の実施形態のステップS15に対応する。
(2−2−1)書き起こしテキスト作成支援方法の全体構成
図12のシーケンスチャートを参照して、第2の実施形態における書き起こしテキスト作成支援方法の流れを説明する。
ユーザUが書き起こしテキスト作成支援プログラムの起動、ログインを行い(ステップS41)、書き起こしを依頼する音声データの登録、保存を行い(ステップS42,S43)、書き起こし依頼(ステップS44)に応じて音声データの分割を行う(ステップS45)処理については、第1の実施形態におけるステップS11〜S15の処理と同様であるため、詳細な説明を省略する。第2の実施形態のステップS41は第1の実施形態のステップS11に対応し、第2の実施形態のステップS42は第1の実施形態のステップS12に対応し、第2の実施形態のステップS43は第1の実施形態のステップS13に対応し、第2の実施形態のステップS44は第1の実施形態のステップS14に対応し、第2の実施形態のステップS45は第1の実施形態のステップS15に対応する。
処理が、ステップS45からステップS46に移る。ステップS46において、分割音声データに分割ファイル名が付与され、処理がステップS47に移る。複数の分割音声データのそれぞれには、一旦分割音声データの分割順に対応した分割ファイル名が付与される。続いて、複数の分割音声データのそれぞれには、分割音声データの分割順に対応しない分割ファイル名(ランダム化ファイル名)を再付与するリネーム処理が行われる。
ステップS47において、分割音声データに対して音声変調処理がなされ、処理がステップS48に移る。さらに、ステップS48において、分割音声データを、分割順に連続しないように複数結合して分配用音声データを生成し、処理がステップS49に移る。
ステップS47において、分割音声データに対して音声変調処理がなされ、処理がステップS48に移る。さらに、ステップS48において、分割音声データを、分割順に連続しないように複数結合して分配用音声データを生成し、処理がステップS49に移る。
続くステップS49の分割音声データの送信から、ステップS58の書き起こしテキスト作成装置110への書き起こし結果の送信までの処理については、第1の実施形態におけるステップS17〜S26の処理と同様であるため、詳細な説明を省略する。第2の実施形態のステップS49は第1の実施形態のステップS17に対応し、第2の実施形態のステップS50は第1の実施形態のステップS18に対応し、第2の実施形態のステップS51は第1の実施形態のステップS19に対応し、第2の実施形態のステップS52は第1の実施形態のステップS20に対応し、第2の実施形態のステップS53は第1の実施形態のステップS21に対応し、第2の実施形態のステップS54は第1の実施形態のステップS22に対応し、第2の実施形態のステップS55は第1の実施形態のステップS23に対応し、第2の実施形態のステップS56は第1の実施形態のステップS24に対応し、第2の実施形態のステップS57は第1の実施形態のステップS25に対応し、第2の実施形態のステップS58は第1の実施形態のステップS26に対応する。
続いて、処理がステップS58からステップS59に移る。ステップS59において、書き起こしテキスト作成装置110では、受信した書き起こし結果を、分割音声データの分割順に対応する順番で結合して結合テキストデータを生成する。分配用音声データの書き起こし結果が得られた場合には、分配用音声データ生成部17を参照して、書き起こし結果のテキストを分割し、再度正しい順番で結合することで、結合テキストデータを生成する。結合テキストデータが生成されると、処理がステップS60に移る。ステップS60において、ユーザUに対して書き起こし完了通知が送信される。
以上により、ユーザが依頼した音声データの書き起こしテキストが作成される。
以上により、ユーザが依頼した音声データの書き起こしテキストが作成される。
なお、ステップS45は、音声データを分割して複数の分割音声データを生成する分割音声データ生成工程に対応する。ステップS49〜S51は、分割音声データ生成工程で生成された複数の前記分割音声データを、分割順が不連続となるように複数の書き起こし作業者の端末装置に分配する分割音声データ分配工程に対応する。具体的には、ステップS49において、書き起こしテキスト作成装置10が、複数の分割音声データを分割順が不連続となるように分割音声データ分配装置20に送信している。ステップS57、ステップS58は、複数の書き起こし作業者の端末装置から、分割音声データ分配工程で分配された複数の分割音声データの書き起こし結果である複数の分割テキストデータを受信する分割テキストデータ受信工程に対応する。ステップS59は、分割テキストデータ受信工程で受信した複数の分割テキストデータを結合して、音声データの書き起こし結果である結合テキストデータを生成する結合テキストデータ生成工程に対応する。
また、ステップS46は、分割ファイル名付与部112が分割された複数の分割音声データのそれぞれに、分割音声データの分割順に対応しない分割ファイル名(ランダム化ファイル名)を付与するリネーム工程に対応し、ステップS47は、音声変調部16が元の音声データ又は分割音声データに対して音声変調を行う音声変調工程に対応し、ステップS48は、分配用音声データ生成部17が分割音声データ生成部11で生成された分割音声データを、分割順に連続しないように複数結合して分配用音声データを生成する分配用音声データ生成工程に対応する。
また、ステップS46は、分割ファイル名付与部112が分割された複数の分割音声データのそれぞれに、分割音声データの分割順に対応しない分割ファイル名(ランダム化ファイル名)を付与するリネーム工程に対応し、ステップS47は、音声変調部16が元の音声データ又は分割音声データに対して音声変調を行う音声変調工程に対応し、ステップS48は、分配用音声データ生成部17が分割音声データ生成部11で生成された分割音声データを、分割順に連続しないように複数結合して分配用音声データを生成する分配用音声データ生成工程に対応する。
(2−2−2)分割音声データ生成部における音声データ分割方法
第2の実施形態のステップS45における音声データの分割処理で用いられる音声データ分割方法は、第1の実施形態における音声データの分割方法と同様であるため、詳細な説明を省略する。
第2の実施形態のステップS45における音声データの分割処理で用いられる音声データ分割方法は、第1の実施形態における音声データの分割方法と同様であるため、詳細な説明を省略する。
(2−2−3)結合テキストデータ生成部における結合テキストデータ生成方法
第2の実施形態のステップS59における結合テキストデータの生成方法は、第1の実施形態における結合テキストデータの生成方法と同様であるため、詳細な説明を省略する。なお、分配用音声データの書き起こし結果が得られた場合には、分配用音声データ生成部17を参照して、書き起こし結果のテキストを分割し、再度正しい順番で結合することで、結合テキストデータを生成する。
第2の実施形態のステップS59における結合テキストデータの生成方法は、第1の実施形態における結合テキストデータの生成方法と同様であるため、詳細な説明を省略する。なお、分配用音声データの書き起こし結果が得られた場合には、分配用音声データ生成部17を参照して、書き起こし結果のテキストを分割し、再度正しい順番で結合することで、結合テキストデータを生成する。
(2−3)書き起こしテキスト作成支援プログラム
第2の実施形態の書き起こしテキスト作成支援プログラムは、書き起こしテキスト作成支援システム101を構成するコンピュータを、音声データを分割して複数の分割音声データを生成する分割音声データ生成部11、分割された複数の分割音声データのそれぞれに当該分割音声データの分割順に対応しない分割ファイル名を付与する分割ファイル名付与部112、音声データ又は分割音声データに対して音声変調を行う音声変調部16、分割音声データを分割順に連続しないように複数結合して分配用音声データを生成する分配用音声データ生成部17、分配用音声データを分割音声データ分配装置20に送信する送信部13、分配用音声データを、書き起こし作業者端末30A,30B,30Cのいずれかに分配する分割音声データ分配装置20、分配用音声データの書き起こし結果であるテキストデータを受信する受信部14、及び分配用音声データの書き起こし結果のテキストを分割し、分割されたテキストを再度正しい順番で結合して音声データの書き起こし結果である結合テキストデータを生成する結合テキストデータ生成部115として機能させる。
第2の実施形態の書き起こしテキスト作成支援プログラムは、書き起こしテキスト作成支援システム101を構成するコンピュータを、音声データを分割して複数の分割音声データを生成する分割音声データ生成部11、分割された複数の分割音声データのそれぞれに当該分割音声データの分割順に対応しない分割ファイル名を付与する分割ファイル名付与部112、音声データ又は分割音声データに対して音声変調を行う音声変調部16、分割音声データを分割順に連続しないように複数結合して分配用音声データを生成する分配用音声データ生成部17、分配用音声データを分割音声データ分配装置20に送信する送信部13、分配用音声データを、書き起こし作業者端末30A,30B,30Cのいずれかに分配する分割音声データ分配装置20、分配用音声データの書き起こし結果であるテキストデータを受信する受信部14、及び分配用音声データの書き起こし結果のテキストを分割し、分割されたテキストを再度正しい順番で結合して音声データの書き起こし結果である結合テキストデータを生成する結合テキストデータ生成部115として機能させる。
(2−4)変形例
上述した音声変調部16及び分配用音声データ生成部17は、分割音声データ分配装置20内に設けられていてもよい。
上述した音声変調部16及び分配用音声データ生成部17は、分割音声データ分配装置20内に設けられていてもよい。
(2−5)第2の実施形態の効果
第2の実施形態に記載の書き起こしテキスト作成支援システムでは、第1の実施形態に記載の(1)〜(5)の効果に加えて、以下の効果を有する。
(6)分割ファイル名付与部112において、分割された複数の分割音声データのそれぞれにランダム化ファイル名を付与する。これにより、書き起こしテキスト作成装置110から分割音声データ分配装置20に対して又は分割音声データ分配装置20から書き起こし作業者端末30に対して複数の分割音声データを送信する際に、複数の分割音声データが漏えいした場合であっても、分割音声データの分割順が容易に把握されにくくなる。このため、複数の分割音声データから発話内容を取得されにくくなる。
第2の実施形態に記載の書き起こしテキスト作成支援システムでは、第1の実施形態に記載の(1)〜(5)の効果に加えて、以下の効果を有する。
(6)分割ファイル名付与部112において、分割された複数の分割音声データのそれぞれにランダム化ファイル名を付与する。これにより、書き起こしテキスト作成装置110から分割音声データ分配装置20に対して又は分割音声データ分配装置20から書き起こし作業者端末30に対して複数の分割音声データを送信する際に、複数の分割音声データが漏えいした場合であっても、分割音声データの分割順が容易に把握されにくくなる。このため、複数の分割音声データから発話内容を取得されにくくなる。
(7)音声変調部16において、元の音声データ又は分割音声データの音声を変調して、発話者の音声を異なる音声に変換することにより、発話者が特定されにくくなる。特に、発話者が著名人や容易に特定され得る人物の場合には、より発話者が特定されにくくなる。
(8)分配用音声データ生成部17において、分割音声データを、分割順に連続しないように複数結合して分配用音声データを生成し、書き起こし作業者に分配することにより、書き起こし作業者がより音声データの発話内容を把握しにくくなる。
(8)分配用音声データ生成部17において、分割音声データを、分割順に連続しないように複数結合して分配用音声データを生成し、書き起こし作業者に分配することにより、書き起こし作業者がより音声データの発話内容を把握しにくくなる。
3.第3の実施形態
本発明の第3の実施形態に係る書き起こしテキスト作成支援システム、分割音声データ分配装置、書き起こしテキスト作成支援方法及び書き起こしテキスト作成支援プログラムについて、図13及び図14を参照して説明する。第3の実施形態では、まず書き起こしテキスト作成装置において音声データに対して音声認識処理を行ってテキスト化を行い、音声認識の認識結果の信頼度が一定のレベル以下の場合にのみ、分割音声データを作成して書き起こしの依頼を行う例について説明する。
まず、第3の実施形態に係る書き起こしテキスト作成支援システムの構成について図13を用いて説明する。
本発明の第3の実施形態に係る書き起こしテキスト作成支援システム、分割音声データ分配装置、書き起こしテキスト作成支援方法及び書き起こしテキスト作成支援プログラムについて、図13及び図14を参照して説明する。第3の実施形態では、まず書き起こしテキスト作成装置において音声データに対して音声認識処理を行ってテキスト化を行い、音声認識の認識結果の信頼度が一定のレベル以下の場合にのみ、分割音声データを作成して書き起こしの依頼を行う例について説明する。
まず、第3の実施形態に係る書き起こしテキスト作成支援システムの構成について図13を用いて説明する。
(3−1)書き起こしテキスト作成支援システムの構成
図13は、第3の実施形態における書き起こしテキスト作成支援システム201の概略構成を示す図である。図13に示すように、第3の実施形態における書き起こしテキスト作成支援システム201は、複数の書き起こしテキスト作成装置210(書き起こしテキスト作成装置210A、210B、210C)を備えている。また、第3の実施形態における書き起こしテキスト作成支援システム201は、分割音声データ分配装置20及び複数の書き起こし作業者端末30(書き起こし作業者端末30A、30B、30C)を備えている。
図13は、第3の実施形態における書き起こしテキスト作成支援システム201の概略構成を示す図である。図13に示すように、第3の実施形態における書き起こしテキスト作成支援システム201は、複数の書き起こしテキスト作成装置210(書き起こしテキスト作成装置210A、210B、210C)を備えている。また、第3の実施形態における書き起こしテキスト作成支援システム201は、分割音声データ分配装置20及び複数の書き起こし作業者端末30(書き起こし作業者端末30A、30B、30C)を備えている。
複数の書き起こしテキスト作成装置210は、分割音声データ分配装置20とネットワーク(図示せず)を介して接続されている。
なお、以下、書き起こしテキスト作成装置210、書き起こし作業者端末30の個数は、図13中に示す3個に限定されるものではない。
また、分割音声データ分配装置20及び複数の書き起こし作業者端末30(書き起こし作業者端末30A、30B、30C)は、第2の実施形態に記載の分割音声データ分配装置20及び複数の書き起こし作業者端末30(書き起こし作業者端末30A、30B、30C)と同等の機能、構成を有するため、詳細な説明を省略する。
なお、以下、書き起こしテキスト作成装置210、書き起こし作業者端末30の個数は、図13中に示す3個に限定されるものではない。
また、分割音声データ分配装置20及び複数の書き起こし作業者端末30(書き起こし作業者端末30A、30B、30C)は、第2の実施形態に記載の分割音声データ分配装置20及び複数の書き起こし作業者端末30(書き起こし作業者端末30A、30B、30C)と同等の機能、構成を有するため、詳細な説明を省略する。
[書き起こしテキスト作成装置]
書き起こしテキスト作成装置210A、210B、210Cは、それぞれ、例えば書き起こしテキスト作成支援システム201を利用するA社、B社、C社に設置されている。
書き起こしテキスト作成装置210(書き起こしテキスト作成装置210A、210B、210C)のそれぞれは、互いに同様の機能及び構成を有している。
書き起こしテキスト作成装置210A、210B、210Cは、それぞれ、例えば書き起こしテキスト作成支援システム201を利用するA社、B社、C社に設置されている。
書き起こしテキスト作成装置210(書き起こしテキスト作成装置210A、210B、210C)のそれぞれは、互いに同様の機能及び構成を有している。
書き起こしテキスト作成装置210は、分割音声データ生成部11と、分割ファイル名付与部112と、送信部13と、受信部14と、結合テキストデータ生成部115と、音声変調部16と、分配用音声データ生成部17と、分割処理判定部18とを有している。
このうち、分割処理判定部18以外の分割音声データ生成部11、分割ファイル名付与部112、送信部13、受信部14、結合テキストデータ生成部115、音声変調部16及び分配用音声データ生成部17は、第2の実施形態に記載の分割音声データ生成部11、分割ファイル名付与部112、送信部13、受信部14、結合テキストデータ生成部115、音声変調部16及び分配用音声データ生成部17と同様の機能、構成を有しているため、説明を省略する。
このうち、分割処理判定部18以外の分割音声データ生成部11、分割ファイル名付与部112、送信部13、受信部14、結合テキストデータ生成部115、音声変調部16及び分配用音声データ生成部17は、第2の実施形態に記載の分割音声データ生成部11、分割ファイル名付与部112、送信部13、受信部14、結合テキストデータ生成部115、音声変調部16及び分配用音声データ生成部17と同様の機能、構成を有しているため、説明を省略する。
[分割処理判定部]
分割処理判定部18は、音声認識処理部181と、信頼度判定部182と、分割指示部183とを有している。
音声認識処理部181は、音声データに対して音声認識処理を行う。なお、本実施形態において、音声認識処理とは、音声データをコンピュータに取り込んで音声データ内の発話内容を認識させ、音声データに含まれる人間の声を文字列に変換することをいう。音声認識処理としては、従来用いられている処理方法を用いることができる。
信頼度判定部182は、音声認識処理部181における音声認識処理の結果の信頼度の判定を行う。音声認識処理の結果の信頼度とは、音声データの音声認識処理結果に対する信頼性を示す尺度(数値等)である。
分割処理判定部18は、音声認識処理部181と、信頼度判定部182と、分割指示部183とを有している。
音声認識処理部181は、音声データに対して音声認識処理を行う。なお、本実施形態において、音声認識処理とは、音声データをコンピュータに取り込んで音声データ内の発話内容を認識させ、音声データに含まれる人間の声を文字列に変換することをいう。音声認識処理としては、従来用いられている処理方法を用いることができる。
信頼度判定部182は、音声認識処理部181における音声認識処理の結果の信頼度の判定を行う。音声認識処理の結果の信頼度とは、音声データの音声認識処理結果に対する信頼性を示す尺度(数値等)である。
分割指示部183は、判定された前記信頼度が一定のレベル以下である場合に、分割音声データ生成部11に対して音声データの分割指示を行う。分割指示部183は、音声認識処理部181の音声認識処理により得られた音声認識処理結果(文字列)の信頼度が一定のレベル以下である場合には、書き起こし作業者による書き起こしが必要であるものと判断して、分割音声データ生成部11に対して音声データの分割指示を行う。一方、分割指示部183は、音声認識処理部181の音声認識処理により得られた音声認識処理結果(文字列)の信頼度が一定のレベルを超える場合には、分割音声データ生成部11に対して音声データの分割指示を行わない。すなわち、書き起こしテキスト作成装置210では、音声認識処理部181の音声認識処理により得られた文字列を、音声データの書き起こし結果として用いる。
書き起こしテキスト作成支援システム201では、音声認識処理結果の信頼度が一定のレベル以下の場合にのみ書き起こし作業者に対して書き起こし作業を依頼する。すなわち、音声認識処理結果の信頼度が高い場合には、書き起こし作業者に書き起こし作業を依頼する必要がない。このため、分割処理判定部18を設けることにより、音声データの発話内容が書き起こし作業者等に知られることを防止することができる。
音声データの分割指示を受信した分割音声データ生成部11は、音声データを分割して分割音声データを生成する。分割音声データ又は分割音声データが分割順に対応しない順に結合された分配用音声データは、書き起こしテキスト作成装置210から分割音声データ分配装置20を介して書き起こし作業者端末30に送信され、書き起こし作業者による書き起こしが行われる。
(3−2)書き起こしテキスト作成支援方法
(3−2−1)書き起こしテキスト作成支援方法の全体構成
図14のシーケンスチャートを参照して、第3の実施形態における書き起こしテキスト作成支援方法の流れを説明する。
ユーザUが書き起こしテキスト作成支援プログラムの起動、ログインを行い(ステップS61)、書き起こしを依頼する音声データの登録、保存を行い(ステップS62,S63)、書き起こし依頼を行う(ステップS64)処理については、第2の実施形態におけるステップS41〜S44の処理と同様であるため、詳細な説明を省略する。第3の実施形態のステップS61は第2の実施形態のステップS41に対応し、第3の実施形態のステップS62は第2の実施形態のステップS42に対応し、第3の実施形態のステップS63は第2の実施形態のステップS43に対応し、第3の実施形態のステップS64は第2の実施形態のステップS44に対応する。
(3−2−1)書き起こしテキスト作成支援方法の全体構成
図14のシーケンスチャートを参照して、第3の実施形態における書き起こしテキスト作成支援方法の流れを説明する。
ユーザUが書き起こしテキスト作成支援プログラムの起動、ログインを行い(ステップS61)、書き起こしを依頼する音声データの登録、保存を行い(ステップS62,S63)、書き起こし依頼を行う(ステップS64)処理については、第2の実施形態におけるステップS41〜S44の処理と同様であるため、詳細な説明を省略する。第3の実施形態のステップS61は第2の実施形態のステップS41に対応し、第3の実施形態のステップS62は第2の実施形態のステップS42に対応し、第3の実施形態のステップS63は第2の実施形態のステップS43に対応し、第3の実施形態のステップS64は第2の実施形態のステップS44に対応する。
処理がステップS64からステップS65に移る。ステップS65において、分割前の音声データに対して音声認識処理が行われ、処理がステップS66に移る。ステップS66において、音声認識処理の結果の信頼度の判定が行われる。ステップS66において、音声認識処理の結果の信頼度が一定のレベル以下である場合、処理がステップS67に移る。また、ステップS66において、音声認識処理の結果の信頼度が一定のレベルを超える場合には、処理がステップS83に移り、ユーザUに対して書き起こし完了通知が送信される。このとき、音声認識処理の結果として得られた文字列を、音声データの書き起こし結果とする。
ステップS67において、分割指示部183は分割音声データ生成部11に対して音声データの分割指示を行い、処理がステップS68に移る。ステップS68において、分割音声データ生成部11は、分割指示部183からの分割指示に基づいて音声データの分割処理を行い、処理がステップS69に移る。ステップS68における分割処理の方法は、第1、第2の実施の形態と同様である。
続くステップS69の分割ファイル名付与から、ステップS83の書き起こし処理完了通知の送信までの処理については、第2の実施形態におけるステップS46からステップS60の処理と同様にして音声データの書き起こし処理を行う。ステップS69からステップS83は、第2の実施形態におけるステップS46からステップS60の処理と同様であるため、詳細な説明を省略する。
続くステップS69の分割ファイル名付与から、ステップS83の書き起こし処理完了通知の送信までの処理については、第2の実施形態におけるステップS46からステップS60の処理と同様にして音声データの書き起こし処理を行う。ステップS69からステップS83は、第2の実施形態におけるステップS46からステップS60の処理と同様であるため、詳細な説明を省略する。
すなわち、第3の実施形態のステップS69は第2の実施形態のステップS46に対応し、第3の実施形態のステップS70は第2の実施形態のステップS47に対応し、第3の実施形態のステップS71は第2の実施形態のステップS48に対応し、第3の実施形態のステップS72は第2の実施形態のステップS49に対応し、第3の実施形態のステップS73は第2の実施形態のステップS50に対応し、第3の実施形態のステップS74は第2の実施形態のステップS51に対応し、第3の実施形態のステップS75は第2の実施形態のステップS52に対応し、第3の実施形態のステップS76は第2の実施形態のステップS53に対応し、第3の実施形態のステップS77は第2の実施形態のステップS54に対応し、第3の実施形態のステップS78は第2の実施形態のステップS55に対応し、第3の実施形態のステップS79は第2の実施形態のステップS56に対応し、第3の実施形態のステップS80は第2の実施形態のステップS57に対応し、第3の実施形態のステップS81は第2の実施形態のステップS58に対応し、第3の実施形態のステップS82は第2の実施形態のステップS59に対応し、第3の実施形態のステップS83は第2の実施形態のステップS60に対応する。
以上により、ユーザが依頼した音声データの書き起こしテキストが作成される。
以上により、ユーザが依頼した音声データの書き起こしテキストが作成される。
なお、ステップS68は、音声データを分割して複数の分割音声データを生成する分割音声データ生成工程に対応する。ステップS74は、分割音声データ生成工程で生成された分割音声データを、複数の書き起こし作業者の端末装置に対して、分割音声データの分割順が不連続となるように分配する分割音声データ分配工程に対応する。ステップS80、ステップS81は、複数の書き起こし作業者の端末装置から、分割音声データ分配工程で分配された複数の分割音声データの書き起こし結果である複数の分割テキストデータを受信する分割テキストデータ受信工程に対応する。ステップS82は、分割テキストデータ受信工程で受信した複数の分割テキストデータを結合して、音声データの書き起こし結果である結合テキストデータを生成する結合テキストデータ生成工程に対応する。
また、ステップS78は、分割音声データ分配装置20が、複数の書き起こしテキスト作成装置210に対して、書き起こし作業完了通知を送信する書き起こし作業完了通知送信工程に対応し、ステップS69は、分割ファイル名付与部112が分割された複数の分割音声データのそれぞれに、分割音声データの分割順に対応しない分割ファイル名(ランダム化ファイル名)を付与するリネーム工程に対応し、ステップS70は、音声変調部16が元の音声データ又は分割音声データに対して音声変調を行う音声変調工程に対応し、ステップS71は、分配用音声データ生成部17が分割音声データ生成部11で生成された分割音声データを、分割順に連続しないように複数結合して分配用音声データを生成する分配用音声データ生成工程に対応する。
さらに、ステップS65は、音声データに対して音声認識処理を行う音声認識処理工程に対応し、ステップS66は、音声認識処理の結果の信頼度の判定を行う信頼度判定工程に対応し、ステップS67は、判定された信頼度が一定のレベル以下である場合に、分割音声データ生成部に対して音声データの分割指示を行う分割指示工程に対応する。
さらに、ステップS65は、音声データに対して音声認識処理を行う音声認識処理工程に対応し、ステップS66は、音声認識処理の結果の信頼度の判定を行う信頼度判定工程に対応し、ステップS67は、判定された信頼度が一定のレベル以下である場合に、分割音声データ生成部に対して音声データの分割指示を行う分割指示工程に対応する。
(3−2−2)分割音声データ生成部における音声データ分割方法
第3の実施形態のステップS68における音声データの分割処理で用いられる音声データ分割方法は、第1の実施形態における音声データの分割方法と同様であるため、詳細な説明を省略する。
第3の実施形態のステップS68における音声データの分割処理で用いられる音声データ分割方法は、第1の実施形態における音声データの分割方法と同様であるため、詳細な説明を省略する。
(3−2−3)結合テキストデータ生成部における結合テキストデータ生成方法
第3の実施形態のステップS82における結合テキストデータの生成方法は、第2の実施形態における結合テキストデータの生成方法と同様であるため、詳細な説明を省略する。
第3の実施形態のステップS82における結合テキストデータの生成方法は、第2の実施形態における結合テキストデータの生成方法と同様であるため、詳細な説明を省略する。
(3−3)書き起こしテキスト作成支援プログラム
第3の実施形態の書き起こしテキスト作成支援プログラムは、書き起こしテキスト作成支援システム201を構成するコンピュータを、音声データに対して音声認識処理を行い、音声認識処理の結果の信頼度の判定を行い、判定された信頼度が一定のレベル以下である場合に、分割音声データ生成部11に対して音声データの分割指示を行う分割処理判定部18と、音声データを分割して複数の分割音声データを生成する分割音声データ生成部11、分割された複数の分割音声データのそれぞれに当該分割音声データの分割順に対応しない分割ファイル名を付与する分割ファイル名付与部112、音声データ又は分割音声データに対して音声変調を行う音声変調部16、分割音声データを分割順に連続しないように複数結合して分配用音声データを生成する分配用音声データ生成部17、分配用音声データを分割音声データ分配装置20に送信する送信部13、分配用音声データを、書き起こし作業者端末30A,30B,30Cのいずれかに分配する分割音声データ分配装置20、分配用音声データの書き起こし結果であるテキストデータを受信する受信部14、及び分配用音声データの書き起こし結果のテキストを分割し、分割されたテキストを再度正しい順番で結合して音声データの書き起こし結果である結合テキストデータを生成する結合テキストデータ生成部115として機能させる。
第3の実施形態の書き起こしテキスト作成支援プログラムは、書き起こしテキスト作成支援システム201を構成するコンピュータを、音声データに対して音声認識処理を行い、音声認識処理の結果の信頼度の判定を行い、判定された信頼度が一定のレベル以下である場合に、分割音声データ生成部11に対して音声データの分割指示を行う分割処理判定部18と、音声データを分割して複数の分割音声データを生成する分割音声データ生成部11、分割された複数の分割音声データのそれぞれに当該分割音声データの分割順に対応しない分割ファイル名を付与する分割ファイル名付与部112、音声データ又は分割音声データに対して音声変調を行う音声変調部16、分割音声データを分割順に連続しないように複数結合して分配用音声データを生成する分配用音声データ生成部17、分配用音声データを分割音声データ分配装置20に送信する送信部13、分配用音声データを、書き起こし作業者端末30A,30B,30Cのいずれかに分配する分割音声データ分配装置20、分配用音声データの書き起こし結果であるテキストデータを受信する受信部14、及び分配用音声データの書き起こし結果のテキストを分割し、分割されたテキストを再度正しい順番で結合して音声データの書き起こし結果である結合テキストデータを生成する結合テキストデータ生成部115として機能させる。
(3−4)変形例
上述した分割処理判定部18は、他の実施形態の書き起こしテキスト作成支援システムと組み合わされてもよい。例えば、分割処理判定部18は、第1の実施形態の書き起こしテキスト作成装置10内に、分割音声データ生成部11、分割ファイル名付与部12、送信部13、受信部14及び結合テキストデータ生成部15とともに備えられていてもよい。
上述した分割処理判定部18は、他の実施形態の書き起こしテキスト作成支援システムと組み合わされてもよい。例えば、分割処理判定部18は、第1の実施形態の書き起こしテキスト作成装置10内に、分割音声データ生成部11、分割ファイル名付与部12、送信部13、受信部14及び結合テキストデータ生成部15とともに備えられていてもよい。
(3−5)第3の実施形態の効果
第3の実施形態に記載の書き起こしテキスト作成支援システムでは、第2の実施形態に記載の(1)〜(8)の効果に加えて、以下の効果を有する。
(9)分割処理判定部18を設けることにより、音声認識処理結果の信頼度が一定のレベル以下の場合にのみ書き起こし作業者に対して書き起こし作業を依頼し、音声認識処理結果の信頼度が高い場合には、音声認識処理の結果を書き起こし結果とすることができる。このため、音声データの書き起こし作業を外注する頻度が低下し、音声データの発話内容が書き起こし作業者等に知られることを防止することができる。
第3の実施形態に記載の書き起こしテキスト作成支援システムでは、第2の実施形態に記載の(1)〜(8)の効果に加えて、以下の効果を有する。
(9)分割処理判定部18を設けることにより、音声認識処理結果の信頼度が一定のレベル以下の場合にのみ書き起こし作業者に対して書き起こし作業を依頼し、音声認識処理結果の信頼度が高い場合には、音声認識処理の結果を書き起こし結果とすることができる。このため、音声データの書き起こし作業を外注する頻度が低下し、音声データの発話内容が書き起こし作業者等に知られることを防止することができる。
4.第4の実施形態
本発明の第4の実施形態に係る書き起こしテキスト作成支援システム、分割音声データ分配装置、書き起こしテキスト作成支援方法及び書き起こしテキスト作成支援プログラムについて、図15及び図16を参照して説明する。第4の実施形態では、書き起こしテキスト作成において音声データの書き起こし結果受信後に、音声データの書き起こし結果を修正する例について説明する。
まず、第4の実施形態に係る書き起こしテキスト作成支援システムの構成について図15を用いて説明する。
本発明の第4の実施形態に係る書き起こしテキスト作成支援システム、分割音声データ分配装置、書き起こしテキスト作成支援方法及び書き起こしテキスト作成支援プログラムについて、図15及び図16を参照して説明する。第4の実施形態では、書き起こしテキスト作成において音声データの書き起こし結果受信後に、音声データの書き起こし結果を修正する例について説明する。
まず、第4の実施形態に係る書き起こしテキスト作成支援システムの構成について図15を用いて説明する。
(4−1)書き起こしテキスト作成支援システムの構成
図15は、第4の実施形態における書き起こしテキスト作成支援システム301の概略構成を示す図である。図15に示すように、第4の実施形態における書き起こしテキスト作成支援システム301は、複数の書き起こしテキスト作成装置310(書き起こしテキスト作成装置310A、310B、310C)を備えている。また、第4の実施形態における書き起こしテキスト作成支援システム301は、分割音声データ分配装置20及び複数の書き起こし作業者端末30(書き起こし作業者端末30A、30B、30C)を備えている。
図15は、第4の実施形態における書き起こしテキスト作成支援システム301の概略構成を示す図である。図15に示すように、第4の実施形態における書き起こしテキスト作成支援システム301は、複数の書き起こしテキスト作成装置310(書き起こしテキスト作成装置310A、310B、310C)を備えている。また、第4の実施形態における書き起こしテキスト作成支援システム301は、分割音声データ分配装置20及び複数の書き起こし作業者端末30(書き起こし作業者端末30A、30B、30C)を備えている。
複数の書き起こしテキスト作成装置310は、分割音声データ分配装置20とネットワーク(図示せず)を介して接続されている。
なお、書き起こしテキスト作成装置310、書き起こし作業者端末30の個数は、図15中に示す3個に限定されるものではない。
また、分割音声データ分配装置20及び複数の書き起こし作業者端末30(書き起こし作業者端末30A、30B、30C)は、第2の実施形態に記載の分割音声データ分配装置20及び複数の書き起こし作業者端末30(書き起こし作業者端末30A、30B、30C)と同等の機能、構成を有するため、詳細な説明を省略する。
なお、書き起こしテキスト作成装置310、書き起こし作業者端末30の個数は、図15中に示す3個に限定されるものではない。
また、分割音声データ分配装置20及び複数の書き起こし作業者端末30(書き起こし作業者端末30A、30B、30C)は、第2の実施形態に記載の分割音声データ分配装置20及び複数の書き起こし作業者端末30(書き起こし作業者端末30A、30B、30C)と同等の機能、構成を有するため、詳細な説明を省略する。
[書き起こしテキスト作成装置]
書き起こしテキスト作成装置310A、310B、310Cは、それぞれ、例えば書き起こしテキスト作成支援システム301を利用するA社、B社、C社に設置されている。
書き起こしテキスト作成装置310(書き起こしテキスト作成装置310A、310B、310C)のそれぞれは、互いに同様の機能及び構成を有している。
書き起こしテキスト作成装置310A、310B、310Cは、それぞれ、例えば書き起こしテキスト作成支援システム301を利用するA社、B社、C社に設置されている。
書き起こしテキスト作成装置310(書き起こしテキスト作成装置310A、310B、310C)のそれぞれは、互いに同様の機能及び構成を有している。
書き起こしテキスト作成装置310は、分割音声データ生成部11、分割ファイル名付与部112、送信部13、受信部14、結合テキストデータ生成部115、音声変調部16、分配用音声データ生成部17、分割処理判定部18及び結合テキストデータ修正部19を有している。
このうち、結合テキストデータ修正部19以外の分割音声データ生成部11、分割ファイル名付与部112、送信部13、受信部14、結合テキストデータ生成部115、音声変調部16、分配用音声データ生成部17及び分割処理判定部18は、第3の実施形態に記載の分割音声データ生成部11、分割ファイル名付与部112、送信部13、受信部14、結合テキストデータ生成部115、音声変調部16、分配用音声データ生成部17及び分割処理判定部18と同様の機能、構成を有しているため、説明を省略する。
このうち、結合テキストデータ修正部19以外の分割音声データ生成部11、分割ファイル名付与部112、送信部13、受信部14、結合テキストデータ生成部115、音声変調部16、分配用音声データ生成部17及び分割処理判定部18は、第3の実施形態に記載の分割音声データ生成部11、分割ファイル名付与部112、送信部13、受信部14、結合テキストデータ生成部115、音声変調部16、分配用音声データ生成部17及び分割処理判定部18と同様の機能、構成を有しているため、説明を省略する。
[結合テキストデータ修正部]
以下、結合テキストデータ修正部19について説明する。
結合テキストデータ修正部19は、表示部191、操作入力部192、音声出力部193、文字修正部194及び再生位置管理部195を備えている。
表示部191は、結合テキストデータに対応する結合テキストが表示される液晶ディスプレイ(Liquid Crystal Display:LCD)、プラズマディスプレイ、有機EL(ElectroLuminescence)ディスプレイ、ブラウン管(Cathode Ray Tube:CRT)ディスプレイ等である。表示部191は、音声データの書き起こし結果である結合テキストを表示する。また、表示部191は、操作入力部192からの操作により修正された書き起こし結果を表示する。
以下、結合テキストデータ修正部19について説明する。
結合テキストデータ修正部19は、表示部191、操作入力部192、音声出力部193、文字修正部194及び再生位置管理部195を備えている。
表示部191は、結合テキストデータに対応する結合テキストが表示される液晶ディスプレイ(Liquid Crystal Display:LCD)、プラズマディスプレイ、有機EL(ElectroLuminescence)ディスプレイ、ブラウン管(Cathode Ray Tube:CRT)ディスプレイ等である。表示部191は、音声データの書き起こし結果である結合テキストを表示する。また、表示部191は、操作入力部192からの操作により修正された書き起こし結果を表示する。
操作入力部192は、ユーザによる文字入力及び操作入力を受け付けるキーボード、タッチパネル等の入力装置、マウス等である。操作入力部192では、表示部191に表示された結合テキストの一部を選択するための操作入力が行われる。操作入力部192では、例えば、結合テキストのうち書き起こし結果が間違えている部分を選択するための操作入力が行われる。また、操作入力部192では、表示部191に表示された結合テキストの一部を修正するための文字入力が行われる。
また、指定した結合テキストの一部を強調表示又は反転表示したり、指定された結合テキストの近傍の背景色を変更したりするように表示部191に対して指示を送信する。また、文字修正部194は、指定した結合テキストに対応する音声データの一部を再生するように、音声出力部193に対して指示を送信する。
また、指定した結合テキストの一部を強調表示又は反転表示したり、指定された結合テキストの近傍の背景色を変更したりするように表示部191に対して指示を送信する。また、文字修正部194は、指定した結合テキストに対応する音声データの一部を再生するように、音声出力部193に対して指示を送信する。
音声出力部193は、音声データの一部を再生し出力するスピーカ等である。音声出力部193は、ユーザによって操作入力部192から入力された操作によって選択される結合テキストに対応する音声を出力する。音声出力部193は、選択された結合テキストに対応する部分のみでなく、選択された結合テキストの音声区間の前数秒及び音声区間の後ろ数秒を含む音声を出力することが好ましい。
文字修正部194は、操作入力部192からの文字入力に従って、表示部191に表示された結合テキストの一部を修正する。文字修正部194は、ユーザによって操作入力部192から入力された操作によって選択される結合テキストの一部を、ユーザによって操作入力部192から入力された文字に置き換えて修正結合テキストデータを生成する。文字修正部194は、表示部191に対して修正結合テキストデータを表示するように指示する。
文字修正部194は、操作入力部192からの文字入力に従って、表示部191に表示された結合テキストの一部を修正する。文字修正部194は、ユーザによって操作入力部192から入力された操作によって選択される結合テキストの一部を、ユーザによって操作入力部192から入力された文字に置き換えて修正結合テキストデータを生成する。文字修正部194は、表示部191に対して修正結合テキストデータを表示するように指示する。
再生位置管理部195は、結合テキストの文字と、当該文字に対応する音声データの再生位置とを対応付けて管理する。例えば、再生位置管理部195は、分割音声データ生成部11における音声データ分割時に作成したファイルリストと、当該ファイルリストに対応する分割音声データの書き起こし結果(分割テキストデータ)を対応付けて管理している。
操作入力部192からの操作入力により結合テキストの一部が選択されると、再生位置管理部195は、選択された当該結合テキストが含まれる分割テキストデータを選択し、選択された分割テキストデータに対応するファイルリストを選択する。再生位置管理部195は、選択されたファイルリストを参照することにより、選択された結合テキストデータに対応する音声区間を判定し、音声出力部193に対して音声データのうちの当該音声区間の再生を指示する。
操作入力部192からの操作入力により結合テキストの一部が選択されると、再生位置管理部195は、選択された当該結合テキストが含まれる分割テキストデータを選択し、選択された分割テキストデータに対応するファイルリストを選択する。再生位置管理部195は、選択されたファイルリストを参照することにより、選択された結合テキストデータに対応する音声区間を判定し、音声出力部193に対して音声データのうちの当該音声区間の再生を指示する。
また、再生位置管理部195は、選択された結合テキストに対応する音声区間を再生する際に、当該音声区間の前後数秒間を含む区間の再生を指示してもよい。これにより、修正を行いたい部分(選択された結合テキスト)の音声のみでなく、その前後の音声も確認することができる。このため、より確実に書き起こし結果の修正を行うことができる。
以下、書き起こし結果の修正について、図16(A)〜図16(C)を参照して説明する。
図16(A)は、表示部191に表示される、ある音声データの書き起こし結果を示している。図16(B)は、操作入力部192からの操作入力により、図16(A)に示す書き起こし結果の一部を選択した状態を示している。図16(C)は、操作入力部192からの文字入力により、図16(B)に示す選択された書き起こし結果の一部を修正した状態を示している。
図16(A)は、表示部191に表示される、ある音声データの書き起こし結果を示している。図16(B)は、操作入力部192からの操作入力により、図16(A)に示す書き起こし結果の一部を選択した状態を示している。図16(C)は、操作入力部192からの文字入力により、図16(B)に示す選択された書き起こし結果の一部を修正した状態を示している。
図16(A)に示す書き起こし結果のうち、第2行目冒頭に表示された「反感費」の記載が間違いであるものとする。この場合、ユーザは、操作入力部192であるマウス等を操作することにより、書き起こし結果の一部である「反感費」の部分を選択する。図16(B)に示すように、選択された「反感費」の部分の背景色は、他の部分の背景色と異なる色に変更される。このとき、音声出力部193からは、再生位置管理部195の指示により、「反感費」の部分を含む音声が出力される。
ユーザは、音声出力部193から出力される音声を確認し、操作入力部192であるキーボード等を操作して「反感費」の部分の正しい文言である「販管費」を入力する。文字修正部194は、操作入力部192からの文字入力に従って、表示部191に表示された「反感費」の文字を「販管費」に修正する。これにより、図16(C)に示すように、表示部191には、「反感費」が「販管費」に置き換えられた修正書き起こし結果が表示される。
ユーザは、音声出力部193から出力される音声を確認し、操作入力部192であるキーボード等を操作して「反感費」の部分の正しい文言である「販管費」を入力する。文字修正部194は、操作入力部192からの文字入力に従って、表示部191に表示された「反感費」の文字を「販管費」に修正する。これにより、図16(C)に示すように、表示部191には、「反感費」が「販管費」に置き換えられた修正書き起こし結果が表示される。
このように、結合テキストデータ修正部19を用いた書き起こしテキスト作成装置310では、書き起こし結果を修正することができる。また、結合テキストデータ修正部19を用いた書き起こしテキスト作成装置310では、修正部分の音声を確認しながら書き起こし結果の修正を行うことができるため、文脈を把握しやすくなり、より正確に書き起こし結果の修正を行うことができる。
(4−2)書き起こしテキスト作成支援方法
第4の実施形態の書き起こしテキスト作成支援方法は、音声データを分割して複数の分割音声データを生成する分割音声データ生成工程と、分割音声データ生成工程で生成された分割音声データを分割順に連続しないように複数結合して分配用音声データを生成する分配用音声データ生成工程と、分配用音声データを、複数の書き起こし作業者の端末装置に分配する分割音声データ分配工程と、分割音声データの書き起こし作業の完了を依頼者に通知する書き起こし作業完了通知工程と、複数の書き起こし作業者の端末装置から、分割音声データ分配工程で分配された複数の分割音声データの書き起こし結果である複数の分割テキストデータを受信する分割テキストデータ受信工程と、分配用音声データの書き起こし結果のテキストを分割し、分割されたテキストを再度正しい順番で結合して、音声データの書き起こし結果である結合テキストデータを生成する結合テキストデータ生成工程と、を備えている。
第4の実施形態の書き起こしテキスト作成支援方法は、音声データを分割して複数の分割音声データを生成する分割音声データ生成工程と、分割音声データ生成工程で生成された分割音声データを分割順に連続しないように複数結合して分配用音声データを生成する分配用音声データ生成工程と、分配用音声データを、複数の書き起こし作業者の端末装置に分配する分割音声データ分配工程と、分割音声データの書き起こし作業の完了を依頼者に通知する書き起こし作業完了通知工程と、複数の書き起こし作業者の端末装置から、分割音声データ分配工程で分配された複数の分割音声データの書き起こし結果である複数の分割テキストデータを受信する分割テキストデータ受信工程と、分配用音声データの書き起こし結果のテキストを分割し、分割されたテキストを再度正しい順番で結合して、音声データの書き起こし結果である結合テキストデータを生成する結合テキストデータ生成工程と、を備えている。
また、第4の実施形態の書き起こしテキスト作成支援方法は、音声データに対して音声認識処理を行い、音声認識処理の結果の信頼度の判定を行い、判定された信頼度が一定のレベル以下である場合に、音声データの分割指示を行う分割処理判定工程と、分割された複数の分割音声データのそれぞれに、当該分割音声データの分割順に対応しない分割ファイル名を付与する分割ファイル名付与工程と、音声データ又は分割音声データに対して音声変調を行う音声変調工程と、を備えている。
さらに、第4の実施形態の書き起こしテキスト作成支援方法は、ユーザからの操作入力に従って音声データの一部を出力する音声出力工程と、ユーザからの文字入力に従って結合テキストの一部を修正する結合テキストデータ修正工程とを備えている。
さらに、第4の実施形態の書き起こしテキスト作成支援方法は、ユーザからの操作入力に従って音声データの一部を出力する音声出力工程と、ユーザからの文字入力に従って結合テキストの一部を修正する結合テキストデータ修正工程とを備えている。
(4−3)書き起こしテキスト作成支援プログラム
第4の実施形態の書き起こしテキスト作成支援プログラムは、書き起こしテキスト作成支援システム301を構成するコンピュータを、音声データに対して音声認識処理を行い、音声認識処理の結果の信頼度の判定を行い、判定された信頼度が一定のレベル以下である場合に、分割音声データ生成部11に対して音声データの分割指示を行う分割処理判定部18と、音声データを分割して複数の分割音声データを生成する分割音声データ生成部11、分割された複数の分割音声データのそれぞれに当該分割音声データの分割順に対応しない分割ファイル名を付与する分割ファイル名付与部112、音声データ又は分割音声データに対して音声変調を行う音声変調部16、分割音声データを分割順に連続しないように複数結合して分配用音声データを生成する分配用音声データ生成部17、分配用音声データを分割音声データ分配装置20に送信する送信部13、分配用音声データを、書き起こし作業者端末30A,30B,30Cのいずれかに分配する分割音声データ分配装置20、分配用音声データの書き起こし結果であるテキストデータを受信する受信部14、及び分配用音声データの書き起こし結果のテキストを分割し、分割されたテキストを再度正しい順番で結合して音声データの書き起こし結果である結合テキストデータを生成する結合テキストデータ生成部115として機能させる。
また、書き起こしテキスト作成支援プログラムは、書き起こしテキスト作成支援システム301を構成するコンピュータを、操作入力部192からの操作入力に従って音声データの一部を出力する音声出力部193と、操作入力部192からの文字入力に従って結合テキストの一部を修正する文字修正部194とを有する結合テキストデータ修正部19として機能させる。
第4の実施形態の書き起こしテキスト作成支援プログラムは、書き起こしテキスト作成支援システム301を構成するコンピュータを、音声データに対して音声認識処理を行い、音声認識処理の結果の信頼度の判定を行い、判定された信頼度が一定のレベル以下である場合に、分割音声データ生成部11に対して音声データの分割指示を行う分割処理判定部18と、音声データを分割して複数の分割音声データを生成する分割音声データ生成部11、分割された複数の分割音声データのそれぞれに当該分割音声データの分割順に対応しない分割ファイル名を付与する分割ファイル名付与部112、音声データ又は分割音声データに対して音声変調を行う音声変調部16、分割音声データを分割順に連続しないように複数結合して分配用音声データを生成する分配用音声データ生成部17、分配用音声データを分割音声データ分配装置20に送信する送信部13、分配用音声データを、書き起こし作業者端末30A,30B,30Cのいずれかに分配する分割音声データ分配装置20、分配用音声データの書き起こし結果であるテキストデータを受信する受信部14、及び分配用音声データの書き起こし結果のテキストを分割し、分割されたテキストを再度正しい順番で結合して音声データの書き起こし結果である結合テキストデータを生成する結合テキストデータ生成部115として機能させる。
また、書き起こしテキスト作成支援プログラムは、書き起こしテキスト作成支援システム301を構成するコンピュータを、操作入力部192からの操作入力に従って音声データの一部を出力する音声出力部193と、操作入力部192からの文字入力に従って結合テキストの一部を修正する文字修正部194とを有する結合テキストデータ修正部19として機能させる。
(4−4)変形例
上述した結合テキストデータ修正部19は、他の実施形態の書き起こしテキスト作成支援システムと組み合わされてもよい。例えば、結合テキストデータ修正部19は、第1の実施形態の書き起こしテキスト作成装置10内に、分割音声データ生成部11、分割ファイル名付与部12、送信部13、受信部14及び結合テキストデータ生成部15とともに備えられていてもよい。
上述した結合テキストデータ修正部19は、他の実施形態の書き起こしテキスト作成支援システムと組み合わされてもよい。例えば、結合テキストデータ修正部19は、第1の実施形態の書き起こしテキスト作成装置10内に、分割音声データ生成部11、分割ファイル名付与部12、送信部13、受信部14及び結合テキストデータ生成部15とともに備えられていてもよい。
(4−5)第4の実施形態の効果
第4の実施形態に記載の書き起こしテキスト作成支援システムでは、第3の実施形態に記載の(1)〜(9)の効果に加えて、以下の効果を有する。
(10)修正部分の音声を確認しながら書き起こし結果の修正を行うことができるため、ユーザが文脈を把握しやすくなり、より正確に書き起こし結果の修正を行うことができる。
第4の実施形態に記載の書き起こしテキスト作成支援システムでは、第3の実施形態に記載の(1)〜(9)の効果に加えて、以下の効果を有する。
(10)修正部分の音声を確認しながら書き起こし結果の修正を行うことができるため、ユーザが文脈を把握しやすくなり、より正確に書き起こし結果の修正を行うことができる。
以上、各実施形態により本発明を説明したが、本発明の範囲は、図示され記載された例示的な実施形態に限定されるものではなく、本発明が目的とするものと均等な効果をもたらす全ての実施形態をも含む。さらに、本発明の範囲は、請求項により画される発明の特徴の組み合わせに限定されるものではなく、全ての開示されたそれぞれの特徴のうち特定の特徴のあらゆる所望する組み合わせによって画されうる。
1,101,201,301 書き起こしテキスト作成支援システム
10,110,210,310 書き起こしテキスト作成装置
20 分割音声データ分配装置
30,30A,30B,30C 書き起こし作業者端末
10,110,210,310 書き起こしテキスト作成装置
20 分割音声データ分配装置
30,30A,30B,30C 書き起こし作業者端末
Claims (14)
- 書き起こしテキスト作成装置と、
分割音声データ分配装置と、
を備え、
前記書き起こしテキスト作成装置は、
音声データを分割して複数の分割音声データを生成する分割音声データ生成部、
複数の前記分割音声データを、分割順が不連続となるように前記分割音声データ分配装置に送信する送信部、
複数の前記分割音声データの書き起こし結果である複数の分割テキストデータを受信する受信部、及び、
受信した複数の前記分割テキストデータを結合して、前記音声データの書き起こし結果である結合テキストデータを生成する結合テキストデータ生成部、
を有し、
前記分割音声データ分配装置は、
複数の前記分割音声データを、複数の書き起こし作業者の端末装置に分配する
書き起こしテキスト作成支援システム。 - 前記書き起こしテキスト作成装置は、分割された複数の前記分割音声データのそれぞれに、該分割音声データの分割順に対応しない分割ファイル名を付与する分割ファイル名付与部を備える
請求項1に記載の書き起こしテキスト作成支援システム。 - 前記分割音声データ分配装置は、前記音声データに含まれない音声を示す偽装データを使用して、前記分割音声データを生成する
請求項1又は2に記載の書き起こしテキスト作成支援システム。 - 前記書き起こしテキスト作成装置は、前記音声データ又は前記分割音声データに対して音声変調を行う音声変調部を備える
請求項1から3のいずれか1項に記載の書き起こしテキスト作成支援システム。 - 前記分割音声データ生成部は、複数の前記分割音声データの時間長がそれぞれ同一となるように前記音声データを分割する
請求項1から4のいずれか1項に記載の書き起こしテキスト作成支援システム。 - 前記分割音声データ生成部は、前記音声データを音節単位に分割する
請求項1から5のいずれか1項に記載の書き起こしテキスト作成支援システム。 - 前記分割音声データ生成部は、前記音声データのうち無音時間が基準時間以上である無音区間の位置を検知し、該無音区間において前記音声データを分割する
請求項6に記載の書き起こしテキスト作成支援システム。 - 前記分割音声データ生成部は、前記分割音声データの平均時間長が所定時間以下となるまで、前記無音区間の前記基準時間を徐々に短く設定して該無音区間での前記音声データの分割処理を繰り返す
請求項7に記載の書き起こしテキスト作成支援システム。 - 前記分割音声データ生成部は、前記分割音声データの平均時間長が1秒となるように前記分割音声データを生成する
請求項8に記載の書き起こしテキスト作成支援システム。 - 前記分割音声データ生成部は、一分割音声データの最後部の音声と、分割順が該一分割音声データの次である他の分割音声データの最初部の音声とが重複するようにして、前記音声データを分割する
請求項1から9のいずれか1項に記載の書き起こしテキスト作成支援システム。 - 前記音声データに対して音声認識処理を行う音声認識処理部と、
前記音声認識処理の結果の信頼度の判定を行う信頼度判定部と、
判定された前記信頼度が一定のレベル以下である場合に、前記分割音声データ生成部に対して前記音声データの分割指示を行う分割指示部と、を有する分割処理判定部
を備える
請求項1から10のいずれか1項に記載の書き起こしテキスト作成支援システム。 - 前記結合テキストデータ生成部は、前記受信部で受信された複数の前記分割テキストデータを、前記分割音声データの分割順に対応する順番で結合して前記結合テキストデータを生成する
請求項1から11のいずれか1項に記載の書き起こしテキスト作成支援システム。 - 音声データを分割して複数の分割音声データを生成する分割音声データ生成工程と、
前記分割音声データ生成工程で生成された複数の前記分割音声データを、分割順が不連続となるように複数の書き起こし作業者の端末装置に分配する分割音声データ分配工程と、
複数の前記書き起こし作業者の端末装置から、前記分割音声データ分配工程で分配された複数の前記分割音声データの書き起こし結果である複数の分割テキストデータを受信する分割テキストデータ受信工程と、
前記分割テキストデータ受信工程で受信した複数の前記分割テキストデータを結合して、前記音声データの書き起こし結果である結合テキストデータを生成する結合テキストデータ生成工程と、
を備える書き起こしテキスト作成支援方法。 - コンピュータを、
複数の分割音声データを、複数の書き起こし作業者の端末装置に分配する分割音声データ分配部、
音声データを分割して前記複数の分割音声データを生成する分割音声データ生成部、
複数の前記分割音声データを、分割順が不連続となるように前記分割音声データ分配部に送信する送信部、
複数の前記分割音声データの書き起こし結果である複数の分割テキストデータを受信する受信部、及び、
受信した複数の前記分割テキストデータを結合して、前記音声データの書き起こし結果である結合テキストデータを生成する結合テキストデータ生成部、
として機能させるための書き起こしテキスト作成支援プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015221530A JP2017090716A (ja) | 2015-11-11 | 2015-11-11 | 書き起こしテキスト作成支援システム、書き起こしテキスト作成支援方法及び書き起こしテキスト作成支援プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015221530A JP2017090716A (ja) | 2015-11-11 | 2015-11-11 | 書き起こしテキスト作成支援システム、書き起こしテキスト作成支援方法及び書き起こしテキスト作成支援プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017090716A true JP2017090716A (ja) | 2017-05-25 |
Family
ID=58768518
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015221530A Pending JP2017090716A (ja) | 2015-11-11 | 2015-11-11 | 書き起こしテキスト作成支援システム、書き起こしテキスト作成支援方法及び書き起こしテキスト作成支援プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2017090716A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019056746A (ja) * | 2017-09-20 | 2019-04-11 | 株式会社野村総合研究所 | データ変換装置 |
JP2020071470A (ja) * | 2019-04-05 | 2020-05-07 | 株式会社ジェイ・エックス・ウィンド | 情報処理システムおよび文字起こし方法 |
JP2020072367A (ja) * | 2018-10-31 | 2020-05-07 | 株式会社ジェイ・エックス・ウィンド | 情報処理システムおよび文字起こし方法 |
JP2021026045A (ja) * | 2019-07-31 | 2021-02-22 | 株式会社デンソーアイティーラボラトリ | 保存装置、保存方法およびプログラム |
JP2021093618A (ja) * | 2019-12-10 | 2021-06-17 | 株式会社リチカ | 情報処理装置及びプログラム |
-
2015
- 2015-11-11 JP JP2015221530A patent/JP2017090716A/ja active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019056746A (ja) * | 2017-09-20 | 2019-04-11 | 株式会社野村総合研究所 | データ変換装置 |
JP7088645B2 (ja) | 2017-09-20 | 2022-06-21 | 株式会社野村総合研究所 | データ変換装置 |
JP2020072367A (ja) * | 2018-10-31 | 2020-05-07 | 株式会社ジェイ・エックス・ウィンド | 情報処理システムおよび文字起こし方法 |
JP2020071470A (ja) * | 2019-04-05 | 2020-05-07 | 株式会社ジェイ・エックス・ウィンド | 情報処理システムおよび文字起こし方法 |
JP7106124B2 (ja) | 2019-04-05 | 2022-07-26 | 株式会社ジェイ・エックス・ウィンド | 情報処理システムおよび文字起こし方法 |
JP2021026045A (ja) * | 2019-07-31 | 2021-02-22 | 株式会社デンソーアイティーラボラトリ | 保存装置、保存方法およびプログラム |
JP2021093618A (ja) * | 2019-12-10 | 2021-06-17 | 株式会社リチカ | 情報処理装置及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2017090716A (ja) | 書き起こしテキスト作成支援システム、書き起こしテキスト作成支援方法及び書き起こしテキスト作成支援プログラム | |
CN111899720B (zh) | 用于生成音频的方法、装置、设备和介质 | |
CN111402842B (zh) | 用于生成音频的方法、装置、设备和介质 | |
US9053096B2 (en) | Language translation based on speaker-related information | |
CN105027194B (zh) | 话语主题的识别 | |
FI115868B (fi) | Puhesynteesi | |
US7957975B2 (en) | Voice controlled wireless communication device system | |
JP2019200408A (ja) | 音声合成モデルを生成するための方法、及び装置 | |
US20040064322A1 (en) | Automatic consolidation of voice enabled multi-user meeting minutes | |
CN103714813A (zh) | 短语辨认系统和方法 | |
US20080294979A1 (en) | Presenting multimodal web page content on sequential multimode devices | |
KR20170125901A (ko) | 음성 인식 전자 디바이스에서 선택적으로 오프라인으로 실행가능한 음성 액션을 위한 데이터의 로컬 유지 | |
US20170103756A1 (en) | Information processing system, and vehicle-mounted device | |
TW202006532A (zh) | 播報語音的確定方法、裝置和設備 | |
JP2014063088A (ja) | 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム | |
US20130166292A1 (en) | Accessing Content Using a Source-Specific Content-Adaptable Dialogue | |
US20080162559A1 (en) | Asynchronous communications regarding the subject matter of a media file stored on a handheld recording device | |
WO2018135303A1 (ja) | 情報処理装置および情報処理方法、並びにプログラム | |
CN111445906A (zh) | 基于大数据的语音生成方法、装置、设备及介质 | |
CN112383721B (zh) | 用于生成视频的方法、装置、设备和介质 | |
US20230290348A1 (en) | Coordination and execution of actions on a plurality of heterogenous ai systems during a conference call | |
JP2009104047A (ja) | 情報処理方法及び情報処理装置 | |
JP5892598B2 (ja) | 音声文字変換作業支援装置、音声文字変換システム、音声文字変換作業支援方法及びプログラム | |
JP2014038150A (ja) | 音声対話システム及び音声対話方法 | |
CN113256133A (zh) | 会议纪要管理方法、装置、计算机设备及存储介质 |