JP2017090716A

JP2017090716A - 書き起こしテキスト作成支援システム、書き起こしテキスト作成支援方法及び書き起こしテキスト作成支援プログラム

Info

Publication number: JP2017090716A
Application number: JP2015221530A
Authority: JP
Inventors: 浦川　康孝; Yasutaka Urakawa; 康孝浦川; 壯中坊; Takeshi Nakabo
Original assignee: ATR-TREK CO Ltd; Fuetrek Co Ltd
Current assignee: ATR-TREK CO Ltd; Fuetrek Co Ltd
Priority date: 2015-11-11
Filing date: 2015-11-11
Publication date: 2017-05-25

Abstract

【課題】音声データの書き起こしの信頼性を維持しつつ、機密情報の漏えいを防止する。【解決手段】音声データを分割して複数の分割音声データを生成し、分割音声データ生成工程で生成された前記分割音声データを、分割順が不連続となるように複数の書き起こし作業者の端末装置に分配し、複数の前記書き起こし作業者の端末装置から、複数の分割音声データの書き起こし結果である複数の分割テキストデータを受信し、複数の分割テキストデータを結合して、音声データの書き起こし結果である結合テキストデータを生成する。【選択図】図１

Description

本発明は、書き起こしテキスト作成支援システム、書き起こしテキスト作成支援方法及び書き起こしテキスト作成支援プログラムに関する。

従来、音声データに基づいて発言や会話をテキストに書き起こす書き起こしが行われている。音声データの書き起こしやそれに基づく議事録の作成は膨大な作業量となる。このため、音声データの書き起こしの際に、音声認識技術を用いて自動的に音声データをテキストデータに変換することが検討されている。しかしながら、音声認識技術を使用する音声データの書き起こしは技術的難易度が高く、精度の高い書き起こしは困難である。
また、機密情報が含まれる音声データの書き起こしは、機密情報漏えい防止の観点から、社内スタッフ及び社外スタッフの何れにも依頼することが困難である。このため、機密情報が含まれる音声データの書き起こしは、経営者や役職の位の高い従業員によって行われている。

ところで、上述したように、音声データの書き起こしの作業量は膨大となる。このため、経営者や役職の位の高い従業員によって、生産性のない書き起こし作業が行われることは好ましくない。このため、以下の特許文献１には、音声データに機密情報に関するキーワードが含まれる音声データの書き起こしを、信頼度の高いスタッフに依頼することが開示されている。

特許第５１８４０７１号公報

しかしながら、上述したように、信頼度の高いスタッフに音声データの書き起こしを依頼した場合であっても、特定のスタッフに音声データの書き起こしを依頼する以上、当該スタッフが機密情報を知り得ることとなる。このため、機密情報の漏えいを確実に防止することが困難となる場合がある。
本発明は、このような点に鑑みてなされたものであり、音声データの書き起こしの信頼性を維持しつつ、機密情報の漏えいを防止する書き起こしテキスト作成支援システム、書き起こしテキスト作成支援プログラム及び書き起こしテキスト作成支援方法を提供することを目的とする。

上記目的を達成するために、本発明の一態様に係る書き起こしテキスト作成支援システムは、書き起こしテキスト作成装置と分割音声データ分配装置とを備え、前記書き起こしテキスト作成装置は、音声データを分割して複数の分割音声データを生成する分割音声データ生成部、複数の前記分割音声データを分割順が不連続となるように前記分割音声データ分配装置に送信する送信部、複数の前記分割音声データの書き起こし結果である複数の分割テキストデータを受信する受信部、及び、受信した複数の前記分割テキストデータを結合して前記音声データの書き起こし結果である結合テキストデータを生成する結合テキストデータ生成部を有し、前記分割音声データ分配装置は、複数の前記分割音声データを複数の書き起こし作業者の端末装置に分配することを特徴とする。

また、本発明の一態様に係る書き起こしテキスト作成支援方法は、音声データを分割して複数の分割音声データを生成する分割音声データ生成工程と、前記分割音声データ生成工程で生成された複数の前記分割音声データを、分割順が不連続となるように複数の書き起こし作業者の端末装置に分配する分割音声データ分配工程と、複数の前記書き起こし作業者の端末装置から、前記分割音声データ分配工程で分配された複数の前記分割音声データの書き起こし結果である複数の分割テキストデータを受信する分割テキストデータ受信工程と、前記分割テキストデータ受信工程で受信した複数の前記分割テキストデータを結合して、前記音声データの書き起こし結果である結合テキストデータを生成する結合テキストデータ生成工程と、を備えることを特徴とする。

また、本発明の一態様に係る書き起こしテキスト作成支援プログラムは、複数の分割音声データを、複数の書き起こし作業者の端末装置に分配する分割音声データ分配部、音声データを分割して前記複数の分割音声データを生成する分割音声データ生成部、複数の前記分割音声データを分割順が不連続となるように前記分割音声データ分配部に送信する送信部、複数の前記分割音声データの書き起こし結果である複数の分割テキストデータを受信する受信部、及び、受信した複数の前記分割テキストデータを結合して前記音声データの書き起こし結果である結合テキストデータを生成する結合テキストデータ生成部として機能させることを特徴とする。

本発明の一態様によれば、音声データの書き起こしの信頼性を維持しつつ、機密情報の漏えいを防止することができる。

本発明の一実施形態の書き起こしテキスト作成支援システムの概略構成図である。本発明の一実施形態の書き起こしテキスト作成支援方法を説明するシーケンスチャートである。本発明の一実施形態の音声データの分割処理の流れを示すフローチャートである。本発明の一実施形態の音声データの分割処理の具体例を示す模式図である。本発明の一実施形態の音声データの分割処理の具体例を示す模式図である。本発明の一実施形態の音声データの分割処理の具体例を示す模式図である。本発明の一実施形態の音声データの分割処理の具体例を示す模式図である。本発明の一実施形態の音声データの分割処理の具体例を示す模式図である。本発明の一実施形態の分割テキストデータ結合の具体例を示す図である。本発明の第２の実施形態の書き起こしテキスト作成支援システムの概略構成図である。本発明の第２の実施形態におけるランダム化ファイル名管理テーブルの一例を示す模式図である。本発明の第２の実施形態の書き起こしテキスト作成支援方法を説明するシーケンスチャートである。本発明の第３の実施形態の書き起こしテキスト作成支援システムの概略構成図である。本発明の第３の実施形態の書き起こしテキスト作成支援方法を説明するシーケンスチャートである。本発明の第４の実施形態の書き起こしテキスト作成支援システムの概略構成図である。本発明の第４の実施形態における書き起こし結果の修正方法を説明する図である。

１．第１の実施形態
本発明の第１の実施形態に係る書き起こしテキスト作成支援システム、分割音声データ分配装置、書き起こしテキスト作成支援方法及び書き起こしテキスト作成支援プログラムについて、図１から図９を参照して説明する。まず、第１の実施形態に係る書き起こしテキスト作成支援システムの構成について図１を用いて説明する。

（１−１）書き起こしテキスト作成支援システムの構成
図１は、本実施形態における書き起こしテキスト作成支援システム１の概略構成を示す図である。図１に示すように、本実施形態における書き起こしテキスト作成支援システム１は、書き起こしテキスト作成装置１０（書き起こしテキスト作成装置１０Ａ、１０Ｂ、１０Ｃ）、分割音声データ分配装置２０及び複数の書き起こし作業者端末３０（書き起こし作業者端末３０Ａ、３０Ｂ、３０Ｃ）を備えている。複数の書き起こしテキスト作成装置１０及び分割音声データ分配装置２０、並びに分割音声データ分配装置２０及び複数の書き起こし作業者端末３０は、ネットワーク（図示せず）を介して接続されている。
なお、以下、書き起こしテキスト作成装置１０及び書き起こし作業者端末３０の個数が３個であるものとして書き起こしテキスト作成支援システム１を説明するが、書き起こし作業者端末３０の数（すなわち書き起こし作業者の数）はこれに限定されるものではない。特に、書き起こし作業者の数は、数十人以上であることが好ましい。

書き起こしテキスト作成装置１０（書き起こしテキスト作成装置１０Ａ、１０Ｂ、１０Ｃ）は、コンピュータ等により構成され、具体的には、サーバ装置である分割音声データ分配装置２０に対して書き起こしテキスト作成のための要求を行うためのプログラムがインストールされたクライアント装置である。書き起こしテキスト作成装置１０Ａ、１０Ｂ、１０Ｃは、それぞれ、例えば書き起こしテキスト作成支援システム１を利用するＡ社、Ｂ社、Ｃ社に設置されている。Ａ社、Ｂ社、Ｃ社は、書き起こしテキスト作成装置１０Ａ、１０Ｂ、１０Ｃをそれぞれ用いて、音声データの書き起こし作業を依頼する。
書き起こしテキスト作成装置１０は、書き起こしを行う音声の音声データを分割して複数の分割音声データを生成する。また、書き起こしテキスト作成装置１０は、各分割音声データの書き起こし結果である複数の分割テキストデータを受信し、結合することで、分割前の音声データの書き起こし結果である結合テキストデータを生成する。なお、本発明において、「音声データ」とは人間の声が含まれるデータをいうものとする。

分割音声データ分配装置２０は、コンピュータ等により構成され、具体的には、クライアントである書き起こしテキスト作成装置１０からの要求に対して書き起こしテキスト作成のための支援を行うプログラムがインストールされたサーバ装置である。
分割音声データ分配装置２０は、書き起こしテキスト作成装置１０Ａ、１０Ｂ、１０Ｃから受信した分割順が不連続な複数の分割音声データを、複数の書き起こし作業者端末３０Ａ、３０Ｂ、３０Ｃに分配する。また、分割音声データ分配装置２０は、書き起こし作業者端末３０Ａ、３０Ｂ、３０Ｃから送信された、分割音声データの書き起こし結果である複数の分割テキストデータを、書き起こしテキスト作成装置１０に送信する。
以下、書き起こしテキスト作成装置１０、分割音声データ分配装置２０及び書き起こし作業者端末３０について詳細に説明する。

［書き起こしテキスト作成装置］
以下、図１を参照して、書き起こしテキスト作成装置１０について詳細に説明する。
書き起こしテキスト作成装置１０は、分割音声データ生成部１１と、分割ファイル名付与部１２と、送信部１３と、受信部１４と、結合テキストデータ生成部１５とを有している。

分割音声データ生成部１１は、音声データを分割して複数の分割音声データを生成する。分割音声データ生成部１１は、音声データを音節単位に、すなわち音声データの分割位置が音節と音節の間となるように分割する。これにより、分割音声データの冒頭部及び末尾部の音声が聞き取り易くなり書き起こし精度が向上する。
音声データを音節単位に分割するために、分割音声データ生成部１１は、例えば、音声データの音声波形の波形レベルを算出し、音声データ中の無音区間の位置を検知して、無音区間で音声データを分割する。分割音声データ生成部１１は、音声データのうち無音時間が基準時間以上である無音区間の位置を検知し、無音区間において音声データを分割する。このとき、分割音声データ生成部１１は、分割音声データの平均時間長が所定時間以下となるまで無音区間の基準時間を徐々に短く設定して、無音区間での音声データの分割処理を繰り返すようにしてもよい。

例えば、分割音声データ生成部１１は、最初の分割処理時には、無音時間が７００ｍｓ以上である無音区間で音声データを分割し、分割処理が２回目、３回目となるにつれて無音時間の設定を３００ｍｓ以上、７０ｍｓ以上と短く設定して、分割処理を行うことができる。これにより、分割音声データの時間長を分割処理毎に短くすることができる。なお、無音時間の設定値はこれに限られたものでなく、例えば２秒等より長い時間に設定してもよい。分割処理の具体的な方法については、後述する。

分割音声データ生成部１１は、分割音声データの平均時間長が１秒となるように分割音声データを生成することが好ましい。ここで、「分割音声データの平均時間長が１秒」とは、現実に分割音声データの平均時間長が１秒丁度であることを言うわけではなく、実際には平均時間長が１秒程度（例えば０．８秒以上１．２秒以下）であることをいう。分割音声データの平均時間長が短くなる程、書き起こし作業者による書き起こし精度は低下し、また分割音声の意図が把握しにくくなる。分割音声データの平均時間長が１秒である場合、書き起こし作業者に分割音声に含まれる発話内容が把握されにくく、かつ一定の書き起こし精度を維持することができる。
なお、書き起こし作業の精度（以下、書き起こし精度と記載する）は、分割音声データの平均時間長が５秒の場合には約８１％、３秒の場合には約７７％、１秒の場合は約７５％であった。すなわち、分割音声データの平均時間長が長い程書き起こし精度が高くなるものの、３秒と１秒の場合には書き起こし精度に大きな差はない。

また、内容の把握ができたか否かを、分割音声の内容を聞いて株式売買をしようと思うか否かという基準に置き換えて判断した。この場合、有効人数に対する株式売買できると判断した人数の割合は、分割音声データの平均時間長が５秒の場合には約５０％、３秒の場合には約６１％、１秒の場合は約２１％であった。また、有効人数に対する株式売買回数の割合は、分割音声データの平均時間長が５秒の場合には約０．０１回／人、３秒の場合には約０．０１回／人、１秒の場合は約０．００４回／人であった。すなわち、分割音声データの平均時間長が短い程内容の把握が困難となり、分割音声データの平均時間長が１秒の場合には特に内容の把握が困難であった。
以上から、分割音声データ生成部１１は、分割音声データの平均時間長が１秒となるように分割音声データを生成することが好ましいことが分かる。

また、上述した無音時間の設定時間は一例であり、発話者の発話スピード、要求される書き起こし精度、音声データに含まれる機密情報の機密レベル等に応じて適宜設定することができる。例えば、発話者の発話スピードが速い場合には、無音区間が全体的に短いと推定されるため、無音時間を比較的短く設定する。また、書き起こし精度を高くしたい場合には、無音時間を比較的長く設定する。これにより、複数の分割音声データの平均時間長が比較的長くなるため、書き起こし作業者が分割音声を聞き取りやすくなり、書き起こし精度が向上する。さらに、音声データに含まれる機密情報の機密レベルが高い場合には、無音時間を比較的短く設定する。これにより、複数の分割音声データの平均時間長が比較的短くなるため、書き起こし作業者が分割音声から機密情報を知り得る可能性が低くなる。

分割音声データ生成部１１は、有音区間の前後に極短い無音区間が存在するようにして、音声データを分割することができる。これにより、分割音声データの冒頭及び末尾に無音区間が含まれるため、分割音声データの聞き取りやすさが向上し、分割音声データの冒頭部及び末尾部の書き起こし精度がより向上する。
分割音声データの聞き取りやすさを向上させるためには、一定の無音区間を存在させることが好ましい。例えば、上述した無音区間を例えば３００ｍｓとすることが好ましい。また、分割処理時に音声データを分割する無音時間の設定を３００ｍｓ未満とした場合、３００ｍｓの無音区間を確保することができない。このため、無音時間ができるだけ長くなるように音声データが分割されることが好ましい。例えば、無音時間が２００ｍｓの場合は、無音区間を２００ｍｓの長さで確保する。

また、分割音声データ生成部１１は、複数の分割音声データの時間長がそれぞれ同一となるように音声データを分割してもよい。すなわち、分割音声データ生成部１１は、所定時間（例えば１秒）毎に音声データを分割してもよい。この場合、分割音声データの冒頭及び最後部の音声が聞き取りにくくなる可能性があるものの、音声データの音声波形の波形レベルの算出や、無音区間の位置の検知が不要となるため、分割処理を短時間で終えることができ、分割処理による負荷を低減することができる。

分割音声データ生成部１１は、ある分割音声データの最後部の音声と、分割順がこの分割音声データの次である他の分割音声データの最初部の音声とが重複するようにして、音声データを分割してもよい。この場合、連続する分割音声ファイルの重複部分を、複数の書き起こし作業者が書き起こしすることとなる。このため、特に所定時間毎に音声データを分割した場合において、音声データの切れ目部分において、書き起こしデータが補完され、書き起こし再現性を向上させることができる。

分割ファイル名付与部１２は、分割音声データ生成部１１で生成された複数の分割音声データに対してそれぞれファイル名を付与する。分割ファイル名付与部１２は、分割された複数の分割音声データのそれぞれに、書き起こし作業依頼者（例えばＡ社、Ｂ社、Ｃ社）を示す固有の英数字（依頼者情報）と、書き起こし作業を依頼する分割音声データの分割順に対応した分割順情報とを含む分割ファイル名を付与する。依頼者情報及び分割順情報は、それぞれ分割ファイル名内の予め決められた位置（例えば依頼者情報は冒頭の１桁、分割順情報は下位の４桁等）で規定されているものとする。

分割ファイル名付与部１２は、各分割音声データに付与した音声ファイル名を記憶している。分割ファイル名は、例えば図示しないテーブル等により管理される。また、書き起こしテキスト作成装置１０では、自装置で付与した分割ファイル名のみを管理する。
ここで、Ａ社に設置されている書き起こしテキスト作成装置１０Ａの分割ファイル名付与部１２は、分割音声データの分割ファイル名を、分割順に「Ａ０００１．ｗａｖ」「Ａ０００２．ｗａｖ」「Ａ０００３．ｗａｖ」・・・のように付与する。同様に、書き起こしテキスト作成装置１０Ｂの分割ファイル名付与部１２は、分割音声データの分割ファイル名を、分割順に「Ｂ０００１．ｗａｖ」「Ｂ０００２．ｗａｖ」「Ｂ０００３．ｗａｖ」・・・のように付与し、書き起こしテキスト作成装置１０Ｃの分割ファイル名付与部１２は、分割音声データの分割ファイル名を、分割順に「Ｃ０００１．ｗａｖ」「Ｃ０００２．ｗａｖ」「Ｃ０００３．ｗａｖ」・・・のように付与する。

送信部１３は、複数の分割音声データを、分割順が不連続となるように分割音声データ分配装置２０に送信する。また、送信部１３は、複数の分割音声データの一部を間引いて、複数の分割音声データを分割音声データ分配装置２０に送信するようにしてもよい。分割音声データを、分割順とならないように又は分割音声データの一部を間引いて送信することにより、書き起こし作業者に対しても分割音声データが分割順とならないように又は分割音声データの一部が間引かれて送信される。このため、書き起こし作業者経由で機密情報が含まれた分割音声データが漏えいしても、内容が把握されにくい。

送信部１３は、分割音声データ生成部１１で生成された複数の分割音声データを、分割順が不連続となるように分割音声データ分配装置２０に送信する。ここで、「分割順が不連続となるように送信」とは、分割音声データ分配装置２０に送信される複数の分割音声データが、分割順に連続していないことをいう。これにより、分割音声データ分配装置２０からいずれかの書き起こし作業者端末３０（例えば書き起こし作業者端末３０Ａ）に送信される複数の分割音声データも分割順に連続しなくなる。
例えば、分割音声データ生成部１１が音声データを分割して分割音声データａから分割音声データｊまでの１０個の分割音声データを生成した場合について説明する。分割音声データａ、ｂ、ｃ・・・ｊは、分割順が１、２、３・・・１０に該当する。送信部１３は、例えば、分割音声データ分配装置２０に対して「分割音声データｂ、分割音声データｆ、分割音声データｊ、分割音声データａ、分割音声データｈ、分割音声データｄ、分割音声データｉ、分割音声データｃ、分割音声データｇ、分割音声データｅ」の順に送信する。これにより、１０個の分割音声データは分割順が不連続となるように送信される。

この後、分割音声データ分配装置２０が受信した分割音声データを書き起こし作業者端末３０Ａ、３０Ｂ及び３０Ｃに順に分配する。すると、書き起こし作業者端末３０Ａには「分割音声データｂ，ａ，ｉ，ｅ」がこの順に送信される。また、書き起こし作業者端末３０Ｂには「分割音声データｆ，ｈ，ｃ」がこの順に送信される。さらに、書き起こし作業者端末３０Ｃには「分割音声データｊ，ｄ，ｇ」がこの順に送信される。
このように、送信部１３が分割音声データを分割順が不連続となるように分割音声データ分配装置２０に送信することで、各書き起こし作業者端末３０に対しても分割音声データを分割順が不連続となるように分配される。
また、送信部１３は、結合テキストデータ生成部１５からの指示に応じて、分割音声データ分配装置２０に書き起こし作業結果の取得要求を行う。

受信部１４は、複数の分割音声データの書き起こし結果である複数の分割テキストデータを受信する。書き起こし作業者により複数の分割音声データの書き起こし作業が終了した場合、受信部１４は、分割音声データ分配装置２０から書き起こし作業完了通知を受信する。書き起こし作業完了通知は、例えば、音声データを分割した複数の分割音声データに対応する複数の分割テキストデータが分割音声データ分配装置２０に保存された場合に送信される。受信部１４は、書き起こし作業完了通知を受信すると、結合テキストデータ生成部１５に書き起こし作業完了通知の受信を通知する。送信部１３は、結合テキストデータ生成部１５からの指示に応じて、分割音声データ分配装置２０に書き起こし作業結果の取得要求を行い、分割音声データ分配装置２０に保存された複数の分割テキストデータを取得する。

結合テキストデータ生成部１５は、受信部１４で受信された複数の分割テキストデータを、分割音声データの分割順に対応する順番で結合して結合テキストデータを生成する。
分割音声データ生成部１１において、ある分割音声データの最後部の音声と、分割順がこの分割音声データの次である他の分割音声データの最初部の音声とが重複するようにして音声データが分割される場合がある。この場合、連続する分割音声ファイルの重複部分は、複数の書き起こし作業者によって書き起こしされている。このため、前者の分割音声データの書き起こし結果の末尾部分と後者の分割音声データの書き起こし結果の冒頭部分とを比較して補完することができ、音声の切れ目部分の書き起こし再現性を向上させることができる。

［書き起こし作業者端末］
書き起こし作業者端末３０Ａ、３０Ｂ、３０Ｃは、書き起こしを行う作業者が所持する端末であり、例えばパーソナルコンピュータ、タブレット型コンピュータ、スマートフォン等のコンピュータ等により構成される。書き起こし作業者端末３０Ａ、３０Ｂ、３０Ｃは、分割音声データ分配装置２０から送信された分割音声データを受信し、書き起こし作業者によって分割音声の書き起こしがなされる。書き起こし結果は、分割テキストデータとして分割音声データ分配装置２０に返信される。
なお、書き起こし作業者端末３０は、書き起こし結果である分割テキストデータに対して、分割音声データの分割ファイル名と関連する分割テキストファイル名を付与する。例えば、分割ファイル名「Ａ０００１．ｗａｖ」「Ａ０００２．ｗａｖ」・・・の分割音声データの書き起こし結果には、例えば「Ａ０００１．ｔｘｔ」「Ａ０００２．ｔｘｔ」・・・との分割テキストファイル名を付与する。これにより、書き起こし結果のファイル名から、書き起こし結果に対応する分割音声データを把握することができる。また、書き起こし作業者端末３０は、分割ファイル名と同様に、ファイル名内の予め決められた位置に依頼者情報及び分割順情報が含まれるように分割テキストファイル名を付与する。

［分割音声データ分配装置］
以下、図１を参照して、分割音声データ分配装置２０について詳細に説明する。分割音声データ分配装置２０は、送信部２１と、受信部２２と、記憶部２３と、書き起こし結果通知部２４とを有している。
送信部２１は、書き起こし作業者端末３０Ａ、３０Ｂ、３０Ｃに対して、書き起こしテキスト作成装置１０から受信した分割音声データを分配する。このとき、送信部２１は、書き起こしテキスト作成装置１０から受信した分割音声データを、受信した順に書き起こし作業者端末３０Ａ、３０Ｂ、３０Ｃに順に振り分ける。また、送信部２１は、書き起こしテキスト作成装置１０から受信した分割音声データの順番を入れ替えたり、間引いて書き起こし作業者端末３０Ａ、３０Ｂ、３０Ｃに振り分けてもよい。

また、送信部２１は、書き起こし作業完了通知を書き起こしテキスト作成装置１０に送信する。さらに、送信部２１は、書き起こし作業者端末３０Ａ、３０Ｂ、３０Ｃから受信した分割音声データの書き起こし結果である分割テキストデータを、書き起こしテキスト作成装置１０に送信する。
受信部２２は、書き起こしテキスト作成装置１０から分割音声データを受信する。また、受信部２２は、書き起こしテキスト作成装置１０から書き起こし作業結果の取得要求を受信する。さらに、受信部２２は、書き起こし作業者端末３０Ａ、３０Ｂ、３０Ｃから分割音声データの書き起こし結果である分割テキストデータを受信する。

記憶部２３は、書き起こしテキスト作成装置１０から送信された分割音声データを記憶する。また、記憶部２３は、書き起こし作業者端末３０Ａ、３０Ｂ、３０Ｃから送信された分割音声データの書き起こし結果である分割テキストデータを記憶する。

書き起こし結果通知部２４は、音声データを分割した分割音声データに対応する分割テキストデータ（書き起こし結果）が記憶部２３に保存されたことを検知して、書き起こしテキスト作成装置１０Ａ、１０Ｂ、１０Ｃのいずれかに書き起こし作業完了通知を送信する。書き起こし結果通知部２４は、書き起こし作業完了通知に対する返信として書き起こしテキスト作成装置１０からの書き起こし結果取得要求を受信すると、記憶部２３から分割テキストデータを読み出して送信部２１に送信させる。
書き起こし結果通知部２４は、一分割音声データの書き起こし結果が記憶部２３に保存される毎に、書き起こし作業完了通知を送信する。また、書き起こし結果通知部２４は、一音声データから分割された複数の分割音声データの書き起こし結果の全てが記憶部２３に保存されてから、書き起こし作業完了通知を送信してもよい。このとき、書き起こし作業完了通知を１回のみ送信しても良く、各分割音声データについてそれぞれ書き起こし作業完了通知を送信しても良い。

また、書き起こし作業完了通知を書き起こしテキスト作成装置１０には送信せず、各分割音声データの書き起こし結果である分割テキストデータが格納されているかどうかを、書き起こしテキスト作成装置１０から分割音声データ分配装置２０に都度確認するようにしてもよい。それにより、書き起こし作業完了通知のために通知先（依頼者）の情報を分割音声データ分配装置２０に保持する必要が無くなり、分割音声データ分配装置２０経由での機密情報漏洩リスクを低減することができる。

書き起こし結果通知部２４は、書き起こしテキスト作成装置１０Ａ、１０Ｂ、１０Ｃのいずれかに書き起こし作業完了通知を送信する際に、書き起こし結果の分割テキストファイル名から作業完了通知の送信先を認識する。すなわち、分割テキストデータのファイル名が「Ａ０００１．ｔｘｔ」「Ａ０００２．ｔｘｔ」・・・である場合には、書き起こし結果通知部２４は、当該分割テキストデータがＡ社に依頼された書き起こし作業の書き起こし結果であるものと判断する。

（１−２）書き起こしテキスト作成支援方法
（１−２−１）書き起こしテキスト作成支援方法の全体構成
図２を参照して、書き起こしテキスト作成支援方法の流れを説明する。図２は、書き起こしテキスト作成支援方法を説明するシーケンスチャートである。図２には、書き起こしテキスト作成装置１０Ａを操作するユーザＵが示されている。以下、Ａ社の書き起こしテキスト作成装置１０Ａから書き起こし作業が依頼される場合を例にとって説明する。
ステップＳ１１において、書き起こしテキストの作成準備として、ユーザＵが書き起こしテキスト作成装置１０Ａにおいて書き起こしテキスト作成支援プログラムを起動させ、ログインを行う。続いて、ステップＳ１２において、ユーザＵは、書き起こしを依頼する音声データの登録を要求する。これにより、書き起こしを依頼する音声データは、書き起こしテキスト作成装置１０Ａに保存される（ステップＳ１３）。

ステップＳ１４においてユーザＵが書き起こしの依頼を行うと、ステップＳ１５において分割音声データ生成部１１により、書き起こしテキスト作成装置１０Ａに保存された音声データの分割処理が行われ、複数の分割音声データが生成される。ステップＳ１６において、分割ファイル名付与部１２による分割音声データそれぞれへの分割ファイル名付与処理（Ａ０００１．ｗａｖ、Ａ０００２．ｗａｖ…）が行われる。分割ファイル名は、分割ファイル名付与部１２において管理される。続いて、ステップＳ１７において、送信部１３により分割ファイル名が付与された分割音声データが分割音声データ分配装置２０に送信される。

ステップＳ１８において、分割音声データ分配装置２０の記憶部２３に分割音声データが保存されると、ステップＳ１９において分割音声データが書き起こし作業者端末３０（書き起こし作業者端末３０Ａ、３０Ｂ、３０Ｃのいずれか）に送信される。このとき、分割音声データ分配装置２０は、記憶部２３に記憶された複数の分割音声データを、分割順が不連続となるように書き起こし作業者端末３０に送信する。また、ステップＳ１９では、書き起こし作業者端末３０（書き起こし作業者端末３０Ａ、３０Ｂ、３０Ｃ）のそれぞれに対して複数の分割音声データが分配される。
ステップＳ２０において、複数の書き起こし作業者端末３０において、書き起こし作業者が分割音声データの書き起こしを行い分割音声データの書き起こし結果である分割テキストデータが生成される。分割テキストデータには、分割音声データに対応するファイル名（Ａ０００１．ｔｘｔ、Ａ０００２．ｔｘｔ…）が付与される。ステップＳ２１において、複数の書き起こし作業者端末３０から分割音声データ分配装置２０に分割テキストデータが送信される。ステップＳ２２において、分割音声データ分配装置２０で分割テキストデータが受信され、分割テキストデータが記憶部２３に保存される。

ステップＳ２３において、書き起こし結果通知部２４が、分割テキストデータ（Ａ０００１．ｔｘｔ）が記憶部２３に保存されたことを検知すると、当該分割テキストデータに対応する分割音声データの書き起こし依頼者を分割テキストファイル名から判断する。書き起こし結果通知部２４は、分割テキストファイル名から判断した依頼者（Ａ社）の書き起こしテキスト作成装置１０Ａに書き起こし作業完了通知を送信する。ステップＳ２４において、書き起こしテキスト作成装置１０Ａが書き起こし作業完了通知に対する返信として書き起こし結果取得要求を送信する。ステップＳ２５において、分割音声データ分配装置２０は、書き起こし結果取得要求を受信し、記憶部２３から必要な書き起こし結果（分割テキストデータ）を読み出す。ステップＳ２６において、分割音声データ分配装置２０から書き起こしテキスト作成装置１０Ａに、分割音声データの書き起こし結果である分割テキストデータを送信する。ステップＳ２３からステップＳ２６の処理は、書き起こし作業を依頼した複数の分割音声データの全ての書き起こし結果を取得するまで繰り返される。

ステップＳ２７において、書き起こしテキスト作成装置１０Ａの結合テキストデータ生成部１５において、受信した複数の分割テキストデータを結合する。これにより、音声データの書き起こし結果である結合テキストデータが生成される。結合テキストデータが生成されると、ステップＳ２８において、ユーザＵに対して書き起こし完了通知が送信される。書き起こし完了通知は、例えば、書き起こしテキスト作成装置１０Ａの表示部（図示せず）に表示されたり、ユーザＵの使用するメールアドレスに対してメールを送信する等の方法によって通知される。
以上により、ユーザが依頼した音声データの書き起こしテキストが作成される。

なお、ステップＳ１５は、音声データを分割して複数の分割音声データを生成する分割音声データ生成工程に対応する。ステップＳ１７は、分割音声データ生成工程で生成された分割音声データを、複数の書き起こし作業者の端末装置に対して、分割音声データの分割順が不連続となるように分配する分割音声データ分配工程に対応する。ステップＳ２５、ステップＳ２６は、複数の書き起こし作業者の端末装置から、分割音声データ分配工程で分配された複数の分割音声データの書き起こし結果である複数の分割テキストデータを受信する分割テキストデータ受信工程に対応する。ステップＳ２７は、分割テキストデータ受信工程で受信した複数の分割テキストデータを結合して、音声データの書き起こし結果である結合テキストデータを生成する結合テキストデータ生成工程に対応する。

（１−２−２）分割音声データ生成部における音声データ分割方法
図３、図４（Ａ）及び図４（Ｂ）、図５（Ａ）及び図５（Ｂ）、図６（Ａ）及び図６（Ｂ）並びに図７（Ａ）、図７（Ｂ）及び図７（Ｃ）を参照して、ステップＳ１５における音声データの分割処理で用いられる音声データ分割方法について詳細に説明する。音声データの分割処理は、書き起こしテキスト作成装置１０Ａの分割音声データ生成部１１において実行される。
図３は、音声データの分割処理の流れを示すフローチャートである。

図４（Ａ）及び図４（Ｂ）、図５（Ａ）及び図５（Ｂ）、図６（Ａ）及び（Ｂ）、並びに図７（Ａ）、図７（Ｂ）及び図７（Ｃ）は、音声データの分割の具体例を示す模式図である。
図４（Ａ）は、分割前の音声データの音声波形イメージを示し、図４（Ｂ）は、分割前の音声データの発話内容を示している。
図５（Ａ）は、１回目の分割処理時（音声データの分割処理時）に分割を行う位置である、無音時間７００ｍｓ以上の無音区間ｓｃ１が示された音声波形イメージである。図５（Ｂ）は、１回目の分割処理後の各分割音声データＦ１−１，Ｆ１−２の発話内容を示している。

図６（Ａ）は、２回目の分割処理時（分割音声データＦ１−１，Ｆ１−２に対する分割処理時）に分割を行う位置である、無音時間３００ｍｓ以上の無音区間ｓｃ２〜ｓｃ８が示された音声波形イメージである。図６（Ｂ）は、２回目の分割処理後の各分割音声データＦ２−１〜Ｆ２−１０の発話内容を示している。
図７（Ａ）、図７（Ｂ）及び図７（Ｃ）は、３回目の分割処理時（分割音声データＦ２−１〜Ｆ２−１０に対する分割処理時）に分割を行う位置である、無音時間７０ｍｓ以上の無音区間ｓｃ９〜ｓｃ１１が示された音声波形イメージである。図７（Ｂ）は、図７（Ａ）の一部を拡大して示している。図７（Ｃ）は、３回目の分割処理後の各分割音声データの発話内容を示している。

［分割処理用データのデータ構造］
音声データの分割処理時には、音声データに対応するファイルリストを分割して、生成が予定される分割音声データに対応する複数のファイルリストが生成される。最終的にファイルリストが確定すると、各ファイルリストに基づいて、音声データの分割処理が行われ、分割音声データが生成される。
分割処理の開始前においては、音声データに対応するファイルリストが保存されている。
分割処理中において、ファイルリストは、音声データの分割数分（分割音声データ数）だけ生成される。各ファイルリストには、当該ファイルリストを参照して生成される分割音声データが、分割前の音声データのどの区間に該当するかを示す情報（開始位置及び終了位置）が規定されている。ファイルリストを分割する際には、音声データの開始及び終端の位置でファイルリストを分割する。
音声データの分割処理では、複数のファイルリストの開始時間及び終了時間に従って、元の音声データから分割音声データの生成を行う。

［フローチャート］
図３に示すフローチャートを、図４（Ａ）及び図４（Ｂ）、図５（Ａ）及び図５（Ｂ）、図６（Ａ）及び図６（Ｂ）並びに図７（Ａ）、図７（Ｂ）及び図７（Ｃ）を参照しながら詳細に説明する。
時間長２０秒の音声データの分割処理が開始されると、ステップＳ３１において、音声データの音声レベルの算出処理が実行され、処理がステップＳ３２に移る。算出された音声レベルは、図４（Ａ）に示されるような音声データの音声波形イメージで示される。
ステップＳ３２において、音声データの無音区間の位置及び無音時間の取得処理が実行され、処理がステップＳ３３に移る。ステップＳ３３において、分割処理の準備として、ファイルリストが初期化され、処理がステップＳ３４に移る。

ステップＳ３４において、音声データ（２回目以降は分割音声データ）の平均時間長が所定の目標範囲内にあるか否かを判断し、音声データの平均時間長が所定の目標範囲内にない場合（ステップＳ３４のＮｏ）、処理がステップＳ３５に移る。ステップＳ３４において、音声データの平均時間長が所定の目標範囲内にある場合（ステップＳ３４のＹｅｓ）、処理がステップＳ３８に移る。分割音声データの平均時間長の目標値ｘは、例えば１秒とされる。目標値ｘが１秒の場合、分割音声データの平均時間長の目標範囲は、例えば０．８秒以上１．２秒以下であることが好ましい。
ステップＳ３５において、分割処理を行う無音区間を決定するために、分割処理を行う無音区間の無音時間を設定し、処理がステップＳ３６に移る。ステップＳ３５において、無音時間は、１回目に初期値を設定し、２回目以降は前回の設定値よりも短い時間を設定する。ステップＳ３６において、ファイルリストを無音区間で分割して更新し、処理がステップＳ３７に移る。

ステップＳ３７において、ファイルリストの分割が音声データの終端まで行われたか否かが判断され、ファイルリストの分割が音声データの終端まで行われていないと判断された場合（ステップＳ３７のＮｏ）、処理がステップＳ３６に戻って分割処理が継続される。
ステップＳ３７において、ファイルリストの分割が音声データの終端まで行われたと判断された場合（ステップＳ３７のＹｅｓ）、処理がステップＳ３４に戻る。ステップＳ３４からステップＳ３７の処理は、生成が予定される分割音声データの平均時間長が目標範囲内となるまで繰り返される。

ステップＳ３４において、音声データの平均時間長が所定の目標範囲内にある場合（ステップＳ３４のＹｅｓ）、処理がステップＳ３８に移り、確定したファイルリストに従って音声データが分割され、分割処理が終了する。

以下、具体的に音声データの分割処理を説明する。以下の説明では、時間長２０秒の音声データを分割し、分割音声データの平均時間長の目標値が１秒（目標範囲０．８秒以上１．２秒以下）となるようにするものとする。また、以下の説明では、図３のステップＳ３４〜ステップＳ３８の処理についてのみ説明する。
ステップＳ３４において、音声データの時間長２０秒が目標範囲（０．８秒以上１．２秒以下）外であると判断され（ステップＳ３４のＮｏ）、処理がステップＳ３５に移る。ステップＳ３５において、分割処理を行う無音区間を決定するために、分割処理を行う無音区間の無音時間（初期値）を設定し、処理がステップＳ３６に移る。例えば、ステップＳ３５では、１回目の分割処理において分割を行う無音区間の無音時間（初期値）を７００ｍｓ以上に設定する。ステップＳ３６及びステップＳ３７において音声データの終端までファイルリストが無音区間で分割され、処理がステップＳ３４に戻る。ステップＳ３６及びステップＳ３７では、図５（Ａ）に示す無音時間７００ｍｓ以上の無音区間ｓｃ１でファイルリストが分割される。

１回目のファイルリストの分割により、図５（Ｂ）に示す時間長及び発話内容の２つの分割音声データＦ１−１，Ｆ１−２の生成が予定される。分割音声データＦ１−１，Ｆ１−２の平均時間長は、９．８秒である。

ステップＳ３４において、１回目のファイルリストの分割によって生成が予定される分割音声データＦ１−１，Ｆ１−２の平均時間長（９．８秒）が所定の目標範囲外であると判断され（ステップＳ３４のＮｏ）、処理がステップＳ３５に移る。ステップＳ３５において、無音区間の無音時間が前回設定された７００ｍｓよりも短い３００ｍｓに設定され、処理がステップＳ３６に移る。ステップＳ３６及びステップＳ３７において音声データの終端までファイルリストが分割され、処理がステップＳ３４に戻る。ステップＳ３６及びステップＳ３７では、図６（Ａ）に示す無音時間３００ｍｓ以上の無音区間ｓｃ２〜ｓｃ８でファイルリストが分割される。
２回目のファイルリストの分割により、図６（Ｂ）に示す時間長及び発話内容の１０個の分割音声データＦ２−１〜Ｆ２−１０の生成が予定される。分割音声データＦ２−１〜Ｆ２−１０の平均時間長は、１．８５秒である。

ステップＳ３４において、２回目のファイルリストの分割によって生成が予定される分割音声データＦ２−１〜Ｆ２−１０の平均時間長（１．８５秒）が目標範囲外であると判断され（ステップＳ３４のＮｏ）、処理がステップＳ３５に移る。ステップＳ３５において、無音区間の無音時間が前回設定された３００ｍｓよりも短い７０ｍｓに設定され、処理がステップＳ３６に移る。ステップＳ３６及びステップＳ３７において音声データの終端までファイルリストが分割され、処理がステップＳ３４に戻る。ステップＳ３６及びステップＳ３７では、図７（Ｂ）に示す無音時間７０ｍｓ以上の無音区間ｓｃ９〜ｓｃ１１でファイルリストが分割される。
３回目のファイルリストの分割により、図７（Ｃ）に示す時間長及び発話内容の１５個の分割音声データＦ３−１〜Ｆ３−１５の生成が予定される。分割音声データＦ３−１〜Ｆ３−１５の平均時間長は、１．１９秒である。

ステップＳ３４において、３回目のファイルリストの分割によって生成が予定される分割音声データＦ３−１〜Ｆ３−１５の平均時間長（１．１９秒）が目標範囲内であると判断され（ステップＳ３４のＹｅｓ）、処理がステップＳ３８に移る。ステップＳ３８において、確定したファイルリスト（３回目の分割後のファイルリスト）に従って音声データが分割されることにより分割音声データＦ３−１〜Ｆ３−１５が生成され、分割処理が終了する。

［分割音声データの冒頭及び末尾の無音区間の設定］
分割音声データ生成部１１は、無音区間で音声データの分割を行う際に、有音区間の前後に極短い無音区間が存在するようにして分割音声データを生成することができる。この有音区間の前後の無音区間（分割音声データの冒頭及び末尾の無音区間）の決定方法について、図８（Ａ）から図８（Ｃ）を参照して説明する。
図８（Ａ）から図８（Ｃ）は、音声データ中の２つの有音区間Ｖ１、Ｖ２及び２つの有音区間Ｖ１、Ｖ２の間にある無音区間Ｌａ、Ｌｂ又はＬｃを模式的に示す模式図である。この有音区間の前後の無音区間の決定方法は、音声ファイルの分割位置を決定する際に適用される。以下、有音区間の前後に出来るだけ３００ｍｓの無音区間が存在するようにして音声データを分割する方法について説明する。

図８（Ａ）は、音声データの２つの有音区間Ｖ１、Ｖ２の間に、６００ｍｓ以上の無音区間Ｌａがある場合を例示している。この場合、分割音声データ生成部１１は、有音区間Ｖ１の末尾から３００ｍｓ後の位置（無音区間Ｌａ内の位置）が分割音声データＦ１の終端位置となるようにファイルリストの分割を行う。また、分割音声データ生成部１１は、有音区間Ｖ２の冒頭から３００ｍｓ前の位置（無音区間Ｌａ内の位置）が分割音声データＦ２の冒頭位置となるようにファイルリストの分割を行う。このとき、有音区間Ｖ１を含む分割音声データＦ１の最後部の無音区間Ｌ１と、有音区間Ｖ２を含む分割音声データＦ２の冒頭部の無音区間Ｌ２とは重複しない。また、無音区間Ｌａの一部は、いずれの分割音声データにも含まれない。このため、書き起こし作業者に送信する分割音声データに含まれる書き起こしが不要な無音区間が減少するため好ましい。

図８（Ｂ）は、音声データの２つの有音区間Ｖ１、Ｖ２の間に、３００ｍｓ以上６００ｍｓ未満の無音区間Ｌｂがある場合を例示している。この場合、分割音声データ生成部１１は、有音区間Ｖ１の末尾から３００ｍｓ後の位置（無音区間Ｌｂ内の位置）が分割音声データＦ１の終端位置となるようにファイルリストの分割を行う。また、分割音声データ生成部１１は、有音区間Ｖ２の冒頭から３００ｍｓ前の位置（無音区間Ｌｂ内の位置）が分割音声データＦ２の冒頭位置となるようにファイルリストの分割を行う。このとき、有音区間Ｖ１を含む分割音声データＦ１の最後部の無音区間Ｌ１と、有音区間Ｖ２を含む分割音声データＦ２の冒頭部の無音区間Ｌ２とは重複する。
例えば、無音区間Ｌｂの長さが３５０ｍｓの場合、単純に無音区間の中央で音声データを分割すると、分割音声データＦ１の最後部の無音区間Ｌ１及び分割音声データＦ２の冒頭部の無音区間Ｌ２の長さはそれぞれ１７５ｍｓとなる。この場合、無音区間Ｌ１、Ｌ２の長さがやや短く、分割音声データの聞き取りやすさが十分でないことがある。分割音声データＦ１の無音区間Ｌ１と、分割音声データＦ２の無音区間Ｌ２との一部を重複させて分割音声データを生成することで、無音区間Ｌ１、Ｌ２のいずれも３００ｍｓとすることができ、分割音声データの聞き取りやすさを向上させることができる。

図８（Ｃ）は、音声データの２つの有音区間Ｖ１、Ｖ２の間に、３００ｍｓ未満の無音区間Ｌｃがある場合を例示している。この場合、分割音声データ生成部１１は、有音区間Ｖ１を含む分割音声データＦ１を生成する際に、有音区間Ｖ２の直前の位置（無音区間Ｌｃ内の位置）が分割音声データＦ１の終端位置となるようにファイルリストの分割を行う。また、分割音声データ生成部１１は、有音区間Ｖ２を含む分割音声データＦ２を生成する際に、有音区間Ｖ１の直後の位置（無音区間Ｌｃ内の位置）が分割音声データＦ１の冒頭位置となるようにファイルリストの分割を行う。このとき、有音区間Ｖ１を含む分割音声データＦ１の最後部の無音区間と、有音区間Ｖ２を含む分割音声データＦ２の冒頭部の無音区間とは重複する。

例えば、無音区間Ｌｃの長さが２００ｍｓの場合、単純に無音区間の中央で音声データを分割すると、分割音声データＦ１の最後部の無音区間Ｌ１及び分割音声データＦ２の冒頭部の無音区間Ｌ２の長さはそれぞれ１００ｍｓとなる。この場合、無音区間Ｌ１、Ｌ２の長さが非常に短く、分割音声データの聞き取りやすさが十分でないことがある。分割音声データＦ１の無音区間Ｌ１と、分割音声データＦ２の無音区間Ｌ２とを完全に重複させて分割音声データを生成することで、無音区間Ｌ１、Ｌ２のいずれも無音区間Ｌｃと同じ２００ｍｓの長さを確保できる。このため、無音区間Ｌ１、Ｌ２の長さが無音区間Ｌｃ内で可能な限り長く確保することができ、分割音声データの聞き取りやすさを向上させることができる。

（１−２−３）結合テキストデータ生成部における結合テキストデータ生成方法
結合テキストデータ生成部１５は、分割音声データの書き起こし結果である分割テキストデータを、分割音声データの分割順に対応する順番で結合して結合テキストデータを生成する。分割テキストデータには、例えば、分割順に対応する分割音声データの分割ファイル名（例えば分割順に「０００１．ｗａｖ」「０００２．ｗａｖ」・・・）と関連する分割ファイル名（例えば分割順に「０００１．ｔｘｔ」「０００２．ｔｘｔ」・・・）が付与されている。このため、結合テキストデータ生成部１５は、分割テキストデータの分割ファイル名から分割音声データの分割順を判定し、この分割順を分割テキストデータの結合順として分割テキストデータの結合を行う。

ここで、分割音声データ生成部１１において、ある分割音声データの最後部の音声と、分割順がこの分割音声データの次である他の分割音声データの最初部の音声とが重複するようにして音声データが分割される場合がある。この場合、結合テキストデータ生成部１５は、連続する分割テキストデータを以下のようにして結合する。

図９は、結合テキストデータ生成部１５における分割テキストデータ結合の具体例を示す図である。特に、図９は、複数の分割音声データの時間長がそれぞれ同一となるように音声データを分割したり、話者が早口であったり等の理由で無音区間が極端に短い等の理由により音声データを音節単位で適切に区切れない場合の例を示している。
図９を参照して、一の分割音声データと、分割順が一の分割音声データの次である他の分割音声データの書き起こし結果の結合について説明する。以下、発話内容Ｂ「今日はいい天気ですね。」を含む分割音声データＢの書き起こし結果と、発話内容Ｃ「このあとの予定はどうなっていますか？」を含む分割音声データＣの書き起こし結果との結合について説明する。分割音声データＣの分割順は、分割音声データＢの次の順番である。

分割音声データＢの書き起こし結果の末尾部分が「・・・ですね。こ（desune ko）」であり、分割音声データＣの書き起こし結果の冒頭部分が「え。この・・・（e kono）」であるものとする。この２つの結果を比較すると、分割音声データＢの書き起こし結果の末尾の「e ko」と、分割音声データＣの書き起こし結果の冒頭の「e ko」が重複している。このため、「e ko」の部分を分割音声データＢ，Ｃの重複部分として書き起こし結果の結合を行うことができる。分割音声データＢ，Ｃの書き起こし結果の結合により、音声データの切れ目に対応する部分の書き起こし結果は「・・・ですね。この・・・（desune kono）」となる。分割音声データＣの書き起こし結果の冒頭部分は「え。この・・・（e kono）」であるが、分割音声データＢの書き起こし結果の末尾部分と比較して補完することにより、本来の「・・・ね。この・・・（ne kono）」という書き起こし結果を得ることができ、音声の切れ目に対応する部分の書き起こし再現性を向上させることができる。

以上のように、音声データが音節単位で適切に区切れない場合は、分割音声データの一つを書き起こすのみでは正確な書き起こし結果が得られない場合もある。しかしながら、上述した方法によって書き起こし結果を得ることで、特に分割音声データの冒頭及び末尾部分について最終的に正しい書き起しテキストを得ることができる。

なお、分割音声データＢの末尾部分と分割音声データＣの冒頭部分との比較および結合は、例えば以下のように既存の技術を組み合わせることで人手を介さずにほぼ自動で行うことができる。
まず、書き起こし結果Ｂ、Ｃの各々に対して形態素解析を行って読み情報（「ですね、こ」、「え。この」）を取得し、さらに読み情報を音素情報（ｄｅｓｕｎｅｋｏ、ｅｋｏｎｏ）に変換する。次に、得られた書き起こし結果Ｂ、Ｃの各々の音素の情報のほか、分割音声データＢおよびＣ、および音響モデルを用いて、分割音声データＢ、Ｃの各々について、音素と音声データの時刻情報との対応付け（音素アライメント）を行う。次に、得られた音素−時刻情報の対応付けの情報のほか、分割音声データＢとＣの重複部分の時間長の情報を用いて、分割音声データＢとＣの重複部分について、時刻情報を考慮して分割音声データＢの音素系列とＣの音素系列との対応付け（比較）を行う。（例えば、重複部分の各音素ｅ、ｋ、ｏについて、音とその時刻情報の類似度を比較する。）比較の結果、それらの音素が一致（対応）すると判断できる場合に、書き起こし結果の結合を行う。
なお、分割音声データＢとＣの重複部分が一致（対応）しないと判断した場合には、重複しない音素部分について、そのうち一方の音素（例えば音響的な尤度がより高い音素）を用いて書き起こし結果を結合するようにしてもよい。

（１−３）書き起こしテキスト作成支援プログラム
第１の実施形態の書き起こしテキスト作成支援プログラムは、書き起こしテキスト作成支援システム１を構成するコンピュータを、音声データを分割して複数の分割音声データを生成する分割音声データ生成部１１、複数の分割音声データを分割順が不連続となるように分割音声データ分配装置２０に送信する送信部１３、複数の分割音声データを、複数の書き起こし作業者端末３０Ａ，３０Ｂ，３０Ｃに分配する分割音声データ分配装置２０、複数の分割音声データの書き起こし結果である複数の分割テキストデータを受信する受信部１４、及び受信した複数の分割テキストデータを結合して音声データの書き起こし結果である結合テキストデータを生成する結合テキストデータ生成部１５
として機能させる。

（１−４）変形例
第１の実施形態の書き起こしテキスト作成支援システム１は、分割音声データ分配装置２０から書き起こし作業者端末３０に対して分割音声データを分配送信するように構成されているが、このような構成に限らない。例えば、分割音声データ分配装置２０が書き起こし作業者端末３０に分割音声データを分配送信せず、書き起こし作業者端末３０から分割音声データ分配装置２０へアクセスすることにより書き起こし作業者が分割音声データをストリーミング方式等により確認できるようにしてもよい。この場合、書き起こし作業者端末３０に分割音声データが保存されないため、分割音声データの流出等を防止することができる。

また、分割ファイル名付与部１２にて付与する分割ファイル名として、書き起こし作業依頼者を示す固有の英数字（依頼者がＡ社の場合に「Ａ」など）を依頼者情報として含めるものとして説明したが、依頼者情報をファイル名に含めないようにしてもよい。例えば、分割音声データを書き起こしテキスト作成装置１０から分割音声データ分配装置２０へ送信する度に、各音声データに対して依頼者を特定できないようなＩＤ（分割音声データＩＤ）を分割音声データ分配装置２０において生成し、書き起こしテキスト作成装置１０に通知する。この場合、分割音声データのファイル名を、分割音声データＩＤを用いたファイル名に変更して分割音声データ分配装置２０内に記憶する。以降はその分割音声データＩＤを用いて分割音声データのやりとりを行う。これにより、依頼者情報と分割音声データとの対応付けがより希薄となり、分割音声データ分配装置２０に起因する機密情報漏洩リスクを低減することができる。

（１−５）第１の実施形態の効果
第１の実施形態に記載の書き起こしテキスト作成支援システムでは、以下の効果を有する。
（１）音声データを分割した分割音声データを、分割順とならないように又は分割音声データの一部を間引いて送信することにより、書き起こし作業者経由で機密情報が含まれた分割音声データが漏えいしても、内容が把握されにくくなる。
（２）分割音声データを、音声データを音節単位に分割して生成することにより、分割音声データの冒頭部及び末尾部の書き起こし精度が向上する。
（３）分割音声データを、有音区間の前後に極短い無音区間が存在するようにして生成することにより、分割音声データの冒頭部及び末尾部の書き起こし精度がより向上する。
（４）分割音声データの平均時間長を１秒程度とすることで、書き起こし作業者に分割音声の発話内容が把握されにくく、かつ一定の書き起こし精度を維持することができる。
（５）分割順が連続する分割音声データの一方の最後部の音声と、他方の最初部の音声とが重複するようにして音声データを分割して、分割音声データを生成することにより、音声データの切れ目部分における書き起こし再現性を向上させることができる。

２．第２の実施形態
本発明の第２の実施形態に係る書き起こしテキスト作成支援システム、分割音声データ分配装置、書き起こしテキスト作成支援方法及び書き起こしテキスト作成支援プログラムについて、図１０から図１２を参照して説明する。第２の実施形態では、分割音声データに基づく発話者や発話内容の認識性をより低くするために、音声変調、分割音声データのファイル名の変更及び分割音声データを分割順に対応しない順に結合した分配用データの作成の少なくとも１つを行う例について説明する。
まず、第２の実施形態に係る書き起こしテキスト作成支援システムの構成について図１０を用いて説明する。

（２−１）書き起こしテキスト作成支援システムの構成
図１０は、第２の実施形態における書き起こしテキスト作成支援システム１０１の概略構成を示す図である。図１０に示すように、第２の実施形態における書き起こしテキスト作成支援システム１０１は、複数の書き起こしテキスト作成装置１１０（書き起こしテキスト作成装置１１０Ａ、１１０Ｂ、１１０Ｃ）を備えている。また、第２の実施形態における書き起こしテキスト作成支援システム１０１は、分割音声データ分配装置２０及び複数の書き起こし作業者端末３０（書き起こし作業者端末３０Ａ、３０Ｂ、３０Ｃ）を備えている。

複数の書き起こしテキスト作成装置１１０は、分割音声データ分配装置２０とネットワーク（図示せず）を介して接続されている。
なお、以下、書き起こしテキスト作成装置１１０、書き起こし作業者端末３０の個数は、図１０中に示す３個に限定されるものではない。
また、複数の書き起こし作業者端末３０（書き起こし作業者端末３０Ａ、３０Ｂ、３０Ｃ）は、第１の実施形態に記載の複数の書き起こし作業者端末３０（書き起こし作業者端末３０Ａ、３０Ｂ、３０Ｃ）と同等の機能、構成を有するため、詳細な説明を省略する。

［書き起こしテキスト作成装置］
書き起こしテキスト作成装置１１０Ａ、１１０Ｂ、１１０Ｃは、それぞれ、例えば書き起こしテキスト作成支援システム１０１を利用するＡ社、Ｂ社、Ｃ社に設置されている。
書き起こしテキスト作成装置１１０（書き起こしテキスト作成装置１１０Ａ、１１０Ｂ、１１０Ｃ）のそれぞれは、互いに同様の機能及び構成を有している。

書き起こしテキスト作成装置１１０は、分割音声データ生成部１１と、分割ファイル名付与部１１２と、送信部１３と、受信部１４と、結合テキストデータ生成部１１５と、音声変調部１６と、分配用音声データ生成部１７と、を有している。
このうち、分割音声データ生成部１１、送信部１３及び受信部１４は、第１の実施形態に記載の分割音声データ生成部１１、送信部１３及び受信部１４と同様の機能、構成を有しているため、説明を省略する。

分割ファイル名付与部１１２は、分割された複数の分割音声データのそれぞれに、分割音声データの分割順に対応しない分割ファイル名（以下、ランダム化ファイル名と記載する）を付与するリネーム部（図示せず）と、分割音声データのランダム化ファイル名を管理するランダム化ファイル名管理テーブル（図示せず）とを備えている。リネーム部は、複数の分割音声データのそれぞれに一旦分割音声データの分割順に対応した分割ファイル名を付与した後、分割音声データの分割順に対応しない分割ファイル名を再付与する（以下、この処理をリネーム処理と記載する場合がある）。

図１１は、Ａ社に管理される書き起こしテキスト作成装置１１０Ａのランダム化ファイル名管理テーブルの一例を示す模式図である。
図１１に示すように、ランダム化ファイル名管理テーブルは、分割音声データの分割順に対応した分割ファイル名と、リネーム部で再付与されたランダム化ファイル名とが対応付けられている。書き起こしテキスト作成装置１１０Ａで生成された分割音声データの分割順に対応した分割ファイル名は、分割順に「Ａ０００１．ｗａｖ」「Ａ０００２．ｗａｖ」・・・等とされている。また、ランダム化ファイル名は、分割順に「Ａ１４ｕ２ｆＤｄＴｑ５１ＢＨｌｅｄ．ｗａｖ」「Ａ４ｆＱｚｗｘｚ３ｗＶ９９５３ＧＰ.ｗａｖ」・・・等とされている。また、ランダム化ファイル名管理テーブルは、ランダム化ファイル名と、その分割音声データの時間長が関連付けられて管理されている。
図１１に示すランダム化ファイル名は、ファイル名の上位１ケタが依頼者（Ａ社）を示し、下位１６桁がファイル固有の情報を示す、合計１７桁のファイル名である。

このようにすることで、複数の分割音声データを送信する際に、複数の分割音声データが漏えいした場合であっても、分割音声データの分割順が容易に把握されにくくなる。このため、複数の分割音声データから発話内容を取得されにくくなる。

音声変調部１６は、元の音声データ又は分割音声データに対して音声変調を行うことにより、元の音声データ又は分割音声データに含まれる発話者の音声を異なる音声に変換する。音声変調部１６を設けることにより、発話者が特定されにくくなる。特に、発話者が政治家、芸能人等の著名人や、経営者又は役職の位の高い従業員等の社内において容易に特定され得る人物の場合には、音声変調部１６によって音声を変調することにより、音声データ又は分割音声データから発話者を特定されにくくすることについての効果が顕著となる。

分配用音声データ生成部１７は、分割音声データ生成部１１で生成された分割音声データを、分割順に連続しないように複数結合して分配用音声データを生成する。
例えば、分割音声データ生成部１１において、１つの音声データが分割されて図１１に示す１５個の分割音声データが生成されたものとする。分配用音声データ生成部１７は、分割音声データを「Ａ００１０．ｗａｖ」、「Ａ００１２．ｗａｖ」、「Ａ０００５．ｗａｖ」、「Ａ０００９．ｗａｖ」、「Ａ００１４．ｗａｖ」、「Ａ０００６．ｗａｖ」、「Ａ０００１．ｗａｖ」、「Ａ０００４．ｗａｖ」、「Ａ０００７．ｗａｖ」、「Ａ００１５．ｗａｖ」、「Ａ００１１．ｗａｖ」、「Ａ０００３．ｗａｖ」、「Ａ０００２．ｗａｖ」、「Ａ００１３．ｗａｖ」、「Ａ０００８．ｗａｖ」の順に入れ替えて再結合し一つの分配用音声データを生成する。

これにより、分配用音声データ生成部１７で生成された分配用音声データの発話内容は、「等々えー売上原価、販管費取引えー等におけるですね特にですね売上関係あとまえ、研究開発における社内工数数字として出てまいりましたについて精査し、えー精査するのと等々をこのような数字が今現在えーそれから関係会社間の」となる。このため、分配用音声データに含まれる会話から発話内容の全体像が把握されにくくなる。なお、このような分配用音声データは、分配用音声データ内で分割音声データが分割順とは異なる順に結合されている。このため、分割音声データ分配装置２０が分配用音声データを分配することで、分割順が不連続となるように分割音声データが分配されることとなる。

また、上述した例では、分配用音声データ生成部１７は、一つの音声データから分割されて生成された分割音声データの順番を入れ替えて再結合している。しかしながら、分配用音声データ生成部１７は、二つ以上の音声データから分割されて生成された分割音声データを混合して再結合するようにしてもよい。すなわち、分配用音声データ生成部１７は、二つ以上の会議の音声データを混合して、１又は２以上の分配用音声データを生成してもよい。
このような分配用音声データを書き起こし作業者に分配することで、書き起こし作業者が音声データの発話内容をより把握しにくくなる。また、分配用音声データ送信時に分配用音声データが漏えいした場合に、発話内容を取得されにくくなる。

また、分配用音声データ生成部１７は、音声データに含まれない音声を示す偽装データを結合して、分配用音声データを生成してもよい。また、分配用音声データに偽装データのみを含めるようにしてもよい。分配用音声データに偽装データを含めることにより、分配用音声データに含まれる会話から発話内容の全体像がより把握されにくくなる。
分配用音声データ生成部１７は、図示しない管理部によって、分配用音声データ及びその分配用音声データを生成した際の分割音声データの結合順を管理している。これにより、後述する結合テキストデータ生成部１１５は、分配用音声データ生成部１７を参照することで正しい書き起こし結果を得ることができる。

結合テキストデータ生成部１１５は、受信部１４で受信された書き起こし結果（分割テキストデータ）を、分割音声データの分割順に対応する順番で結合して結合テキストデータを生成する。また、結合テキストデータ生成部１１５は、分配用音声データ生成部１７によって生成された分配用音声データの書き起こし結果を得た場合、分配用音声データ生成部１７を参照して、書き起こし結果のテキストを分割し、分割されたテキストを再度正しい順番で結合する。これにより、結合テキストデータ生成部１１５は結合テキストデータを生成する。

［その他］
第２の実施形態では、分割ファイル名付与部１１２、音声変調部１６及び分配用音声データ生成部１７の全てを備えた書き起こしテキスト作成支援システム１０１について説明したが、必ずしも全てを備える必要はない。すなわち、書き起こしテキスト作成装置１１０は、分割音声データ生成部１１と、送信部１３と、受信部１４と、結合テキストデータ生成部１１５の他に、分割ファイル名付与部１１２、音声変調部１６及び分配用音声データ生成部１７のうちの少なくとも１つを有していてもよい。

（２−２）書き起こしテキスト作成支援方法
（２−２−１）書き起こしテキスト作成支援方法の全体構成
図１２のシーケンスチャートを参照して、第２の実施形態における書き起こしテキスト作成支援方法の流れを説明する。
ユーザＵが書き起こしテキスト作成支援プログラムの起動、ログインを行い（ステップＳ４１）、書き起こしを依頼する音声データの登録、保存を行い（ステップＳ４２，Ｓ４３）、書き起こし依頼（ステップＳ４４）に応じて音声データの分割を行う（ステップＳ４５）処理については、第１の実施形態におけるステップＳ１１〜Ｓ１５の処理と同様であるため、詳細な説明を省略する。第２の実施形態のステップＳ４１は第１の実施形態のステップＳ１１に対応し、第２の実施形態のステップＳ４２は第１の実施形態のステップＳ１２に対応し、第２の実施形態のステップＳ４３は第１の実施形態のステップＳ１３に対応し、第２の実施形態のステップＳ４４は第１の実施形態のステップＳ１４に対応し、第２の実施形態のステップＳ４５は第１の実施形態のステップＳ１５に対応する。

処理が、ステップＳ４５からステップＳ４６に移る。ステップＳ４６において、分割音声データに分割ファイル名が付与され、処理がステップＳ４７に移る。複数の分割音声データのそれぞれには、一旦分割音声データの分割順に対応した分割ファイル名が付与される。続いて、複数の分割音声データのそれぞれには、分割音声データの分割順に対応しない分割ファイル名（ランダム化ファイル名）を再付与するリネーム処理が行われる。
ステップＳ４７において、分割音声データに対して音声変調処理がなされ、処理がステップＳ４８に移る。さらに、ステップＳ４８において、分割音声データを、分割順に連続しないように複数結合して分配用音声データを生成し、処理がステップＳ４９に移る。

続くステップＳ４９の分割音声データの送信から、ステップＳ５８の書き起こしテキスト作成装置１１０への書き起こし結果の送信までの処理については、第１の実施形態におけるステップＳ１７〜Ｓ２６の処理と同様であるため、詳細な説明を省略する。第２の実施形態のステップＳ４９は第１の実施形態のステップＳ１７に対応し、第２の実施形態のステップＳ５０は第１の実施形態のステップＳ１８に対応し、第２の実施形態のステップＳ５１は第１の実施形態のステップＳ１９に対応し、第２の実施形態のステップＳ５２は第１の実施形態のステップＳ２０に対応し、第２の実施形態のステップＳ５３は第１の実施形態のステップＳ２１に対応し、第２の実施形態のステップＳ５４は第１の実施形態のステップＳ２２に対応し、第２の実施形態のステップＳ５５は第１の実施形態のステップＳ２３に対応し、第２の実施形態のステップＳ５６は第１の実施形態のステップＳ２４に対応し、第２の実施形態のステップＳ５７は第１の実施形態のステップＳ２５に対応し、第２の実施形態のステップＳ５８は第１の実施形態のステップＳ２６に対応する。

続いて、処理がステップＳ５８からステップＳ５９に移る。ステップＳ５９において、書き起こしテキスト作成装置１１０では、受信した書き起こし結果を、分割音声データの分割順に対応する順番で結合して結合テキストデータを生成する。分配用音声データの書き起こし結果が得られた場合には、分配用音声データ生成部１７を参照して、書き起こし結果のテキストを分割し、再度正しい順番で結合することで、結合テキストデータを生成する。結合テキストデータが生成されると、処理がステップＳ６０に移る。ステップＳ６０において、ユーザＵに対して書き起こし完了通知が送信される。
以上により、ユーザが依頼した音声データの書き起こしテキストが作成される。

なお、ステップＳ４５は、音声データを分割して複数の分割音声データを生成する分割音声データ生成工程に対応する。ステップＳ４９〜Ｓ５１は、分割音声データ生成工程で生成された複数の前記分割音声データを、分割順が不連続となるように複数の書き起こし作業者の端末装置に分配する分割音声データ分配工程に対応する。具体的には、ステップＳ４９において、書き起こしテキスト作成装置１０が、複数の分割音声データを分割順が不連続となるように分割音声データ分配装置２０に送信している。ステップＳ５７、ステップＳ５８は、複数の書き起こし作業者の端末装置から、分割音声データ分配工程で分配された複数の分割音声データの書き起こし結果である複数の分割テキストデータを受信する分割テキストデータ受信工程に対応する。ステップＳ５９は、分割テキストデータ受信工程で受信した複数の分割テキストデータを結合して、音声データの書き起こし結果である結合テキストデータを生成する結合テキストデータ生成工程に対応する。
また、ステップＳ４６は、分割ファイル名付与部１１２が分割された複数の分割音声データのそれぞれに、分割音声データの分割順に対応しない分割ファイル名（ランダム化ファイル名）を付与するリネーム工程に対応し、ステップＳ４７は、音声変調部１６が元の音声データ又は分割音声データに対して音声変調を行う音声変調工程に対応し、ステップＳ４８は、分配用音声データ生成部１７が分割音声データ生成部１１で生成された分割音声データを、分割順に連続しないように複数結合して分配用音声データを生成する分配用音声データ生成工程に対応する。

（２−２−２）分割音声データ生成部における音声データ分割方法
第２の実施形態のステップＳ４５における音声データの分割処理で用いられる音声データ分割方法は、第１の実施形態における音声データの分割方法と同様であるため、詳細な説明を省略する。

（２−２−３）結合テキストデータ生成部における結合テキストデータ生成方法
第２の実施形態のステップＳ５９における結合テキストデータの生成方法は、第１の実施形態における結合テキストデータの生成方法と同様であるため、詳細な説明を省略する。なお、分配用音声データの書き起こし結果が得られた場合には、分配用音声データ生成部１７を参照して、書き起こし結果のテキストを分割し、再度正しい順番で結合することで、結合テキストデータを生成する。

（２−３）書き起こしテキスト作成支援プログラム
第２の実施形態の書き起こしテキスト作成支援プログラムは、書き起こしテキスト作成支援システム１０１を構成するコンピュータを、音声データを分割して複数の分割音声データを生成する分割音声データ生成部１１、分割された複数の分割音声データのそれぞれに当該分割音声データの分割順に対応しない分割ファイル名を付与する分割ファイル名付与部１１２、音声データ又は分割音声データに対して音声変調を行う音声変調部１６、分割音声データを分割順に連続しないように複数結合して分配用音声データを生成する分配用音声データ生成部１７、分配用音声データを分割音声データ分配装置２０に送信する送信部１３、分配用音声データを、書き起こし作業者端末３０Ａ，３０Ｂ，３０Ｃのいずれかに分配する分割音声データ分配装置２０、分配用音声データの書き起こし結果であるテキストデータを受信する受信部１４、及び分配用音声データの書き起こし結果のテキストを分割し、分割されたテキストを再度正しい順番で結合して音声データの書き起こし結果である結合テキストデータを生成する結合テキストデータ生成部１１５として機能させる。

（２−４）変形例
上述した音声変調部１６及び分配用音声データ生成部１７は、分割音声データ分配装置２０内に設けられていてもよい。

（２−５）第２の実施形態の効果
第２の実施形態に記載の書き起こしテキスト作成支援システムでは、第１の実施形態に記載の（１）〜（５）の効果に加えて、以下の効果を有する。
（６）分割ファイル名付与部１１２において、分割された複数の分割音声データのそれぞれにランダム化ファイル名を付与する。これにより、書き起こしテキスト作成装置１１０から分割音声データ分配装置２０に対して又は分割音声データ分配装置２０から書き起こし作業者端末３０に対して複数の分割音声データを送信する際に、複数の分割音声データが漏えいした場合であっても、分割音声データの分割順が容易に把握されにくくなる。このため、複数の分割音声データから発話内容を取得されにくくなる。

（７）音声変調部１６において、元の音声データ又は分割音声データの音声を変調して、発話者の音声を異なる音声に変換することにより、発話者が特定されにくくなる。特に、発話者が著名人や容易に特定され得る人物の場合には、より発話者が特定されにくくなる。
（８）分配用音声データ生成部１７において、分割音声データを、分割順に連続しないように複数結合して分配用音声データを生成し、書き起こし作業者に分配することにより、書き起こし作業者がより音声データの発話内容を把握しにくくなる。

３．第３の実施形態
本発明の第３の実施形態に係る書き起こしテキスト作成支援システム、分割音声データ分配装置、書き起こしテキスト作成支援方法及び書き起こしテキスト作成支援プログラムについて、図１３及び図１４を参照して説明する。第３の実施形態では、まず書き起こしテキスト作成装置において音声データに対して音声認識処理を行ってテキスト化を行い、音声認識の認識結果の信頼度が一定のレベル以下の場合にのみ、分割音声データを作成して書き起こしの依頼を行う例について説明する。
まず、第３の実施形態に係る書き起こしテキスト作成支援システムの構成について図１３を用いて説明する。

（３−１）書き起こしテキスト作成支援システムの構成
図１３は、第３の実施形態における書き起こしテキスト作成支援システム２０１の概略構成を示す図である。図１３に示すように、第３の実施形態における書き起こしテキスト作成支援システム２０１は、複数の書き起こしテキスト作成装置２１０（書き起こしテキスト作成装置２１０Ａ、２１０Ｂ、２１０Ｃ）を備えている。また、第３の実施形態における書き起こしテキスト作成支援システム２０１は、分割音声データ分配装置２０及び複数の書き起こし作業者端末３０（書き起こし作業者端末３０Ａ、３０Ｂ、３０Ｃ）を備えている。

複数の書き起こしテキスト作成装置２１０は、分割音声データ分配装置２０とネットワーク（図示せず）を介して接続されている。
なお、以下、書き起こしテキスト作成装置２１０、書き起こし作業者端末３０の個数は、図１３中に示す３個に限定されるものではない。
また、分割音声データ分配装置２０及び複数の書き起こし作業者端末３０（書き起こし作業者端末３０Ａ、３０Ｂ、３０Ｃ）は、第２の実施形態に記載の分割音声データ分配装置２０及び複数の書き起こし作業者端末３０（書き起こし作業者端末３０Ａ、３０Ｂ、３０Ｃ）と同等の機能、構成を有するため、詳細な説明を省略する。

［書き起こしテキスト作成装置］
書き起こしテキスト作成装置２１０Ａ、２１０Ｂ、２１０Ｃは、それぞれ、例えば書き起こしテキスト作成支援システム２０１を利用するＡ社、Ｂ社、Ｃ社に設置されている。
書き起こしテキスト作成装置２１０（書き起こしテキスト作成装置２１０Ａ、２１０Ｂ、２１０Ｃ）のそれぞれは、互いに同様の機能及び構成を有している。

書き起こしテキスト作成装置２１０は、分割音声データ生成部１１と、分割ファイル名付与部１１２と、送信部１３と、受信部１４と、結合テキストデータ生成部１１５と、音声変調部１６と、分配用音声データ生成部１７と、分割処理判定部１８とを有している。
このうち、分割処理判定部１８以外の分割音声データ生成部１１、分割ファイル名付与部１１２、送信部１３、受信部１４、結合テキストデータ生成部１１５、音声変調部１６及び分配用音声データ生成部１７は、第２の実施形態に記載の分割音声データ生成部１１、分割ファイル名付与部１１２、送信部１３、受信部１４、結合テキストデータ生成部１１５、音声変調部１６及び分配用音声データ生成部１７と同様の機能、構成を有しているため、説明を省略する。

［分割処理判定部］
分割処理判定部１８は、音声認識処理部１８１と、信頼度判定部１８２と、分割指示部１８３とを有している。
音声認識処理部１８１は、音声データに対して音声認識処理を行う。なお、本実施形態において、音声認識処理とは、音声データをコンピュータに取り込んで音声データ内の発話内容を認識させ、音声データに含まれる人間の声を文字列に変換することをいう。音声認識処理としては、従来用いられている処理方法を用いることができる。
信頼度判定部１８２は、音声認識処理部１８１における音声認識処理の結果の信頼度の判定を行う。音声認識処理の結果の信頼度とは、音声データの音声認識処理結果に対する信頼性を示す尺度（数値等）である。

分割指示部１８３は、判定された前記信頼度が一定のレベル以下である場合に、分割音声データ生成部１１に対して音声データの分割指示を行う。分割指示部１８３は、音声認識処理部１８１の音声認識処理により得られた音声認識処理結果（文字列）の信頼度が一定のレベル以下である場合には、書き起こし作業者による書き起こしが必要であるものと判断して、分割音声データ生成部１１に対して音声データの分割指示を行う。一方、分割指示部１８３は、音声認識処理部１８１の音声認識処理により得られた音声認識処理結果（文字列）の信頼度が一定のレベルを超える場合には、分割音声データ生成部１１に対して音声データの分割指示を行わない。すなわち、書き起こしテキスト作成装置２１０では、音声認識処理部１８１の音声認識処理により得られた文字列を、音声データの書き起こし結果として用いる。

書き起こしテキスト作成支援システム２０１では、音声認識処理結果の信頼度が一定のレベル以下の場合にのみ書き起こし作業者に対して書き起こし作業を依頼する。すなわち、音声認識処理結果の信頼度が高い場合には、書き起こし作業者に書き起こし作業を依頼する必要がない。このため、分割処理判定部１８を設けることにより、音声データの発話内容が書き起こし作業者等に知られることを防止することができる。

音声データの分割指示を受信した分割音声データ生成部１１は、音声データを分割して分割音声データを生成する。分割音声データ又は分割音声データが分割順に対応しない順に結合された分配用音声データは、書き起こしテキスト作成装置２１０から分割音声データ分配装置２０を介して書き起こし作業者端末３０に送信され、書き起こし作業者による書き起こしが行われる。

（３−２）書き起こしテキスト作成支援方法
（３−２−１）書き起こしテキスト作成支援方法の全体構成
図１４のシーケンスチャートを参照して、第３の実施形態における書き起こしテキスト作成支援方法の流れを説明する。
ユーザＵが書き起こしテキスト作成支援プログラムの起動、ログインを行い（ステップＳ６１）、書き起こしを依頼する音声データの登録、保存を行い（ステップＳ６２，Ｓ６３）、書き起こし依頼を行う（ステップＳ６４）処理については、第２の実施形態におけるステップＳ４１〜Ｓ４４の処理と同様であるため、詳細な説明を省略する。第３の実施形態のステップＳ６１は第２の実施形態のステップＳ４１に対応し、第３の実施形態のステップＳ６２は第２の実施形態のステップＳ４２に対応し、第３の実施形態のステップＳ６３は第２の実施形態のステップＳ４３に対応し、第３の実施形態のステップＳ６４は第２の実施形態のステップＳ４４に対応する。

処理がステップＳ６４からステップＳ６５に移る。ステップＳ６５において、分割前の音声データに対して音声認識処理が行われ、処理がステップＳ６６に移る。ステップＳ６６において、音声認識処理の結果の信頼度の判定が行われる。ステップＳ６６において、音声認識処理の結果の信頼度が一定のレベル以下である場合、処理がステップＳ６７に移る。また、ステップＳ６６において、音声認識処理の結果の信頼度が一定のレベルを超える場合には、処理がステップＳ８３に移り、ユーザＵに対して書き起こし完了通知が送信される。このとき、音声認識処理の結果として得られた文字列を、音声データの書き起こし結果とする。

ステップＳ６７において、分割指示部１８３は分割音声データ生成部１１に対して音声データの分割指示を行い、処理がステップＳ６８に移る。ステップＳ６８において、分割音声データ生成部１１は、分割指示部１８３からの分割指示に基づいて音声データの分割処理を行い、処理がステップＳ６９に移る。ステップＳ６８における分割処理の方法は、第１、第２の実施の形態と同様である。
続くステップＳ６９の分割ファイル名付与から、ステップＳ８３の書き起こし処理完了通知の送信までの処理については、第２の実施形態におけるステップＳ４６からステップＳ６０の処理と同様にして音声データの書き起こし処理を行う。ステップＳ６９からステップＳ８３は、第２の実施形態におけるステップＳ４６からステップＳ６０の処理と同様であるため、詳細な説明を省略する。

すなわち、第３の実施形態のステップＳ６９は第２の実施形態のステップＳ４６に対応し、第３の実施形態のステップＳ７０は第２の実施形態のステップＳ４７に対応し、第３の実施形態のステップＳ７１は第２の実施形態のステップＳ４８に対応し、第３の実施形態のステップＳ７２は第２の実施形態のステップＳ４９に対応し、第３の実施形態のステップＳ７３は第２の実施形態のステップＳ５０に対応し、第３の実施形態のステップＳ７４は第２の実施形態のステップＳ５１に対応し、第３の実施形態のステップＳ７５は第２の実施形態のステップＳ５２に対応し、第３の実施形態のステップＳ７６は第２の実施形態のステップＳ５３に対応し、第３の実施形態のステップＳ７７は第２の実施形態のステップＳ５４に対応し、第３の実施形態のステップＳ７８は第２の実施形態のステップＳ５５に対応し、第３の実施形態のステップＳ７９は第２の実施形態のステップＳ５６に対応し、第３の実施形態のステップＳ８０は第２の実施形態のステップＳ５７に対応し、第３の実施形態のステップＳ８１は第２の実施形態のステップＳ５８に対応し、第３の実施形態のステップＳ８２は第２の実施形態のステップＳ５９に対応し、第３の実施形態のステップＳ８３は第２の実施形態のステップＳ６０に対応する。
以上により、ユーザが依頼した音声データの書き起こしテキストが作成される。

なお、ステップＳ６８は、音声データを分割して複数の分割音声データを生成する分割音声データ生成工程に対応する。ステップＳ７４は、分割音声データ生成工程で生成された分割音声データを、複数の書き起こし作業者の端末装置に対して、分割音声データの分割順が不連続となるように分配する分割音声データ分配工程に対応する。ステップＳ８０、ステップＳ８１は、複数の書き起こし作業者の端末装置から、分割音声データ分配工程で分配された複数の分割音声データの書き起こし結果である複数の分割テキストデータを受信する分割テキストデータ受信工程に対応する。ステップＳ８２は、分割テキストデータ受信工程で受信した複数の分割テキストデータを結合して、音声データの書き起こし結果である結合テキストデータを生成する結合テキストデータ生成工程に対応する。

また、ステップＳ７８は、分割音声データ分配装置２０が、複数の書き起こしテキスト作成装置２１０に対して、書き起こし作業完了通知を送信する書き起こし作業完了通知送信工程に対応し、ステップＳ６９は、分割ファイル名付与部１１２が分割された複数の分割音声データのそれぞれに、分割音声データの分割順に対応しない分割ファイル名（ランダム化ファイル名）を付与するリネーム工程に対応し、ステップＳ７０は、音声変調部１６が元の音声データ又は分割音声データに対して音声変調を行う音声変調工程に対応し、ステップＳ７１は、分配用音声データ生成部１７が分割音声データ生成部１１で生成された分割音声データを、分割順に連続しないように複数結合して分配用音声データを生成する分配用音声データ生成工程に対応する。
さらに、ステップＳ６５は、音声データに対して音声認識処理を行う音声認識処理工程に対応し、ステップＳ６６は、音声認識処理の結果の信頼度の判定を行う信頼度判定工程に対応し、ステップＳ６７は、判定された信頼度が一定のレベル以下である場合に、分割音声データ生成部に対して音声データの分割指示を行う分割指示工程に対応する。

（３−２−２）分割音声データ生成部における音声データ分割方法
第３の実施形態のステップＳ６８における音声データの分割処理で用いられる音声データ分割方法は、第１の実施形態における音声データの分割方法と同様であるため、詳細な説明を省略する。

（３−２−３）結合テキストデータ生成部における結合テキストデータ生成方法
第３の実施形態のステップＳ８２における結合テキストデータの生成方法は、第２の実施形態における結合テキストデータの生成方法と同様であるため、詳細な説明を省略する。

（３−３）書き起こしテキスト作成支援プログラム
第３の実施形態の書き起こしテキスト作成支援プログラムは、書き起こしテキスト作成支援システム２０１を構成するコンピュータを、音声データに対して音声認識処理を行い、音声認識処理の結果の信頼度の判定を行い、判定された信頼度が一定のレベル以下である場合に、分割音声データ生成部１１に対して音声データの分割指示を行う分割処理判定部１８と、音声データを分割して複数の分割音声データを生成する分割音声データ生成部１１、分割された複数の分割音声データのそれぞれに当該分割音声データの分割順に対応しない分割ファイル名を付与する分割ファイル名付与部１１２、音声データ又は分割音声データに対して音声変調を行う音声変調部１６、分割音声データを分割順に連続しないように複数結合して分配用音声データを生成する分配用音声データ生成部１７、分配用音声データを分割音声データ分配装置２０に送信する送信部１３、分配用音声データを、書き起こし作業者端末３０Ａ，３０Ｂ，３０Ｃのいずれかに分配する分割音声データ分配装置２０、分配用音声データの書き起こし結果であるテキストデータを受信する受信部１４、及び分配用音声データの書き起こし結果のテキストを分割し、分割されたテキストを再度正しい順番で結合して音声データの書き起こし結果である結合テキストデータを生成する結合テキストデータ生成部１１５として機能させる。

（３−４）変形例
上述した分割処理判定部１８は、他の実施形態の書き起こしテキスト作成支援システムと組み合わされてもよい。例えば、分割処理判定部１８は、第１の実施形態の書き起こしテキスト作成装置１０内に、分割音声データ生成部１１、分割ファイル名付与部１２、送信部１３、受信部１４及び結合テキストデータ生成部１５とともに備えられていてもよい。

（３−５）第３の実施形態の効果
第３の実施形態に記載の書き起こしテキスト作成支援システムでは、第２の実施形態に記載の（１）〜（８）の効果に加えて、以下の効果を有する。
（９）分割処理判定部１８を設けることにより、音声認識処理結果の信頼度が一定のレベル以下の場合にのみ書き起こし作業者に対して書き起こし作業を依頼し、音声認識処理結果の信頼度が高い場合には、音声認識処理の結果を書き起こし結果とすることができる。このため、音声データの書き起こし作業を外注する頻度が低下し、音声データの発話内容が書き起こし作業者等に知られることを防止することができる。

４．第４の実施形態
本発明の第４の実施形態に係る書き起こしテキスト作成支援システム、分割音声データ分配装置、書き起こしテキスト作成支援方法及び書き起こしテキスト作成支援プログラムについて、図１５及び図１６を参照して説明する。第４の実施形態では、書き起こしテキスト作成において音声データの書き起こし結果受信後に、音声データの書き起こし結果を修正する例について説明する。
まず、第４の実施形態に係る書き起こしテキスト作成支援システムの構成について図１５を用いて説明する。

（４−１）書き起こしテキスト作成支援システムの構成
図１５は、第４の実施形態における書き起こしテキスト作成支援システム３０１の概略構成を示す図である。図１５に示すように、第４の実施形態における書き起こしテキスト作成支援システム３０１は、複数の書き起こしテキスト作成装置３１０（書き起こしテキスト作成装置３１０Ａ、３１０Ｂ、３１０Ｃ）を備えている。また、第４の実施形態における書き起こしテキスト作成支援システム３０１は、分割音声データ分配装置２０及び複数の書き起こし作業者端末３０（書き起こし作業者端末３０Ａ、３０Ｂ、３０Ｃ）を備えている。

複数の書き起こしテキスト作成装置３１０は、分割音声データ分配装置２０とネットワーク（図示せず）を介して接続されている。
なお、書き起こしテキスト作成装置３１０、書き起こし作業者端末３０の個数は、図１５中に示す３個に限定されるものではない。
また、分割音声データ分配装置２０及び複数の書き起こし作業者端末３０（書き起こし作業者端末３０Ａ、３０Ｂ、３０Ｃ）は、第２の実施形態に記載の分割音声データ分配装置２０及び複数の書き起こし作業者端末３０（書き起こし作業者端末３０Ａ、３０Ｂ、３０Ｃ）と同等の機能、構成を有するため、詳細な説明を省略する。

［書き起こしテキスト作成装置］
書き起こしテキスト作成装置３１０Ａ、３１０Ｂ、３１０Ｃは、それぞれ、例えば書き起こしテキスト作成支援システム３０１を利用するＡ社、Ｂ社、Ｃ社に設置されている。
書き起こしテキスト作成装置３１０（書き起こしテキスト作成装置３１０Ａ、３１０Ｂ、３１０Ｃ）のそれぞれは、互いに同様の機能及び構成を有している。

書き起こしテキスト作成装置３１０は、分割音声データ生成部１１、分割ファイル名付与部１１２、送信部１３、受信部１４、結合テキストデータ生成部１１５、音声変調部１６、分配用音声データ生成部１７、分割処理判定部１８及び結合テキストデータ修正部１９を有している。
このうち、結合テキストデータ修正部１９以外の分割音声データ生成部１１、分割ファイル名付与部１１２、送信部１３、受信部１４、結合テキストデータ生成部１１５、音声変調部１６、分配用音声データ生成部１７及び分割処理判定部１８は、第３の実施形態に記載の分割音声データ生成部１１、分割ファイル名付与部１１２、送信部１３、受信部１４、結合テキストデータ生成部１１５、音声変調部１６、分配用音声データ生成部１７及び分割処理判定部１８と同様の機能、構成を有しているため、説明を省略する。

［結合テキストデータ修正部］
以下、結合テキストデータ修正部１９について説明する。
結合テキストデータ修正部１９は、表示部１９１、操作入力部１９２、音声出力部１９３、文字修正部１９４及び再生位置管理部１９５を備えている。
表示部１９１は、結合テキストデータに対応する結合テキストが表示される液晶ディスプレイ（Liquid Crystal Display：ＬＣＤ）、プラズマディスプレイ、有機ＥＬ（ElectroLuminescence）ディスプレイ、ブラウン管(Cathode Ray Tube:ＣＲＴ)ディスプレイ等である。表示部１９１は、音声データの書き起こし結果である結合テキストを表示する。また、表示部１９１は、操作入力部１９２からの操作により修正された書き起こし結果を表示する。

操作入力部１９２は、ユーザによる文字入力及び操作入力を受け付けるキーボード、タッチパネル等の入力装置、マウス等である。操作入力部１９２では、表示部１９１に表示された結合テキストの一部を選択するための操作入力が行われる。操作入力部１９２では、例えば、結合テキストのうち書き起こし結果が間違えている部分を選択するための操作入力が行われる。また、操作入力部１９２では、表示部１９１に表示された結合テキストの一部を修正するための文字入力が行われる。
また、指定した結合テキストの一部を強調表示又は反転表示したり、指定された結合テキストの近傍の背景色を変更したりするように表示部１９１に対して指示を送信する。また、文字修正部１９４は、指定した結合テキストに対応する音声データの一部を再生するように、音声出力部１９３に対して指示を送信する。

音声出力部１９３は、音声データの一部を再生し出力するスピーカ等である。音声出力部１９３は、ユーザによって操作入力部１９２から入力された操作によって選択される結合テキストに対応する音声を出力する。音声出力部１９３は、選択された結合テキストに対応する部分のみでなく、選択された結合テキストの音声区間の前数秒及び音声区間の後ろ数秒を含む音声を出力することが好ましい。
文字修正部１９４は、操作入力部１９２からの文字入力に従って、表示部１９１に表示された結合テキストの一部を修正する。文字修正部１９４は、ユーザによって操作入力部１９２から入力された操作によって選択される結合テキストの一部を、ユーザによって操作入力部１９２から入力された文字に置き換えて修正結合テキストデータを生成する。文字修正部１９４は、表示部１９１に対して修正結合テキストデータを表示するように指示する。

再生位置管理部１９５は、結合テキストの文字と、当該文字に対応する音声データの再生位置とを対応付けて管理する。例えば、再生位置管理部１９５は、分割音声データ生成部１１における音声データ分割時に作成したファイルリストと、当該ファイルリストに対応する分割音声データの書き起こし結果（分割テキストデータ）を対応付けて管理している。
操作入力部１９２からの操作入力により結合テキストの一部が選択されると、再生位置管理部１９５は、選択された当該結合テキストが含まれる分割テキストデータを選択し、選択された分割テキストデータに対応するファイルリストを選択する。再生位置管理部１９５は、選択されたファイルリストを参照することにより、選択された結合テキストデータに対応する音声区間を判定し、音声出力部１９３に対して音声データのうちの当該音声区間の再生を指示する。

また、再生位置管理部１９５は、選択された結合テキストに対応する音声区間を再生する際に、当該音声区間の前後数秒間を含む区間の再生を指示してもよい。これにより、修正を行いたい部分（選択された結合テキスト）の音声のみでなく、その前後の音声も確認することができる。このため、より確実に書き起こし結果の修正を行うことができる。

以下、書き起こし結果の修正について、図１６（Ａ）〜図１６（Ｃ）を参照して説明する。
図１６（Ａ）は、表示部１９１に表示される、ある音声データの書き起こし結果を示している。図１６（Ｂ）は、操作入力部１９２からの操作入力により、図１６（Ａ）に示す書き起こし結果の一部を選択した状態を示している。図１６（Ｃ）は、操作入力部１９２からの文字入力により、図１６（Ｂ）に示す選択された書き起こし結果の一部を修正した状態を示している。

図１６（Ａ）に示す書き起こし結果のうち、第２行目冒頭に表示された「反感費」の記載が間違いであるものとする。この場合、ユーザは、操作入力部１９２であるマウス等を操作することにより、書き起こし結果の一部である「反感費」の部分を選択する。図１６（Ｂ）に示すように、選択された「反感費」の部分の背景色は、他の部分の背景色と異なる色に変更される。このとき、音声出力部１９３からは、再生位置管理部１９５の指示により、「反感費」の部分を含む音声が出力される。
ユーザは、音声出力部１９３から出力される音声を確認し、操作入力部１９２であるキーボード等を操作して「反感費」の部分の正しい文言である「販管費」を入力する。文字修正部１９４は、操作入力部１９２からの文字入力に従って、表示部１９１に表示された「反感費」の文字を「販管費」に修正する。これにより、図１６（Ｃ）に示すように、表示部１９１には、「反感費」が「販管費」に置き換えられた修正書き起こし結果が表示される。

このように、結合テキストデータ修正部１９を用いた書き起こしテキスト作成装置３１０では、書き起こし結果を修正することができる。また、結合テキストデータ修正部１９を用いた書き起こしテキスト作成装置３１０では、修正部分の音声を確認しながら書き起こし結果の修正を行うことができるため、文脈を把握しやすくなり、より正確に書き起こし結果の修正を行うことができる。

（４−２）書き起こしテキスト作成支援方法
第４の実施形態の書き起こしテキスト作成支援方法は、音声データを分割して複数の分割音声データを生成する分割音声データ生成工程と、分割音声データ生成工程で生成された分割音声データを分割順に連続しないように複数結合して分配用音声データを生成する分配用音声データ生成工程と、分配用音声データを、複数の書き起こし作業者の端末装置に分配する分割音声データ分配工程と、分割音声データの書き起こし作業の完了を依頼者に通知する書き起こし作業完了通知工程と、複数の書き起こし作業者の端末装置から、分割音声データ分配工程で分配された複数の分割音声データの書き起こし結果である複数の分割テキストデータを受信する分割テキストデータ受信工程と、分配用音声データの書き起こし結果のテキストを分割し、分割されたテキストを再度正しい順番で結合して、音声データの書き起こし結果である結合テキストデータを生成する結合テキストデータ生成工程と、を備えている。

また、第４の実施形態の書き起こしテキスト作成支援方法は、音声データに対して音声認識処理を行い、音声認識処理の結果の信頼度の判定を行い、判定された信頼度が一定のレベル以下である場合に、音声データの分割指示を行う分割処理判定工程と、分割された複数の分割音声データのそれぞれに、当該分割音声データの分割順に対応しない分割ファイル名を付与する分割ファイル名付与工程と、音声データ又は分割音声データに対して音声変調を行う音声変調工程と、を備えている。
さらに、第４の実施形態の書き起こしテキスト作成支援方法は、ユーザからの操作入力に従って音声データの一部を出力する音声出力工程と、ユーザからの文字入力に従って結合テキストの一部を修正する結合テキストデータ修正工程とを備えている。

（４−３）書き起こしテキスト作成支援プログラム
第４の実施形態の書き起こしテキスト作成支援プログラムは、書き起こしテキスト作成支援システム３０１を構成するコンピュータを、音声データに対して音声認識処理を行い、音声認識処理の結果の信頼度の判定を行い、判定された信頼度が一定のレベル以下である場合に、分割音声データ生成部１１に対して音声データの分割指示を行う分割処理判定部１８と、音声データを分割して複数の分割音声データを生成する分割音声データ生成部１１、分割された複数の分割音声データのそれぞれに当該分割音声データの分割順に対応しない分割ファイル名を付与する分割ファイル名付与部１１２、音声データ又は分割音声データに対して音声変調を行う音声変調部１６、分割音声データを分割順に連続しないように複数結合して分配用音声データを生成する分配用音声データ生成部１７、分配用音声データを分割音声データ分配装置２０に送信する送信部１３、分配用音声データを、書き起こし作業者端末３０Ａ，３０Ｂ，３０Ｃのいずれかに分配する分割音声データ分配装置２０、分配用音声データの書き起こし結果であるテキストデータを受信する受信部１４、及び分配用音声データの書き起こし結果のテキストを分割し、分割されたテキストを再度正しい順番で結合して音声データの書き起こし結果である結合テキストデータを生成する結合テキストデータ生成部１１５として機能させる。
また、書き起こしテキスト作成支援プログラムは、書き起こしテキスト作成支援システム３０１を構成するコンピュータを、操作入力部１９２からの操作入力に従って音声データの一部を出力する音声出力部１９３と、操作入力部１９２からの文字入力に従って結合テキストの一部を修正する文字修正部１９４とを有する結合テキストデータ修正部１９として機能させる。

（４−４）変形例
上述した結合テキストデータ修正部１９は、他の実施形態の書き起こしテキスト作成支援システムと組み合わされてもよい。例えば、結合テキストデータ修正部１９は、第１の実施形態の書き起こしテキスト作成装置１０内に、分割音声データ生成部１１、分割ファイル名付与部１２、送信部１３、受信部１４及び結合テキストデータ生成部１５とともに備えられていてもよい。

（４−５）第４の実施形態の効果
第４の実施形態に記載の書き起こしテキスト作成支援システムでは、第３の実施形態に記載の（１）〜（９）の効果に加えて、以下の効果を有する。
（１０）修正部分の音声を確認しながら書き起こし結果の修正を行うことができるため、ユーザが文脈を把握しやすくなり、より正確に書き起こし結果の修正を行うことができる。

以上、各実施形態により本発明を説明したが、本発明の範囲は、図示され記載された例示的な実施形態に限定されるものではなく、本発明が目的とするものと均等な効果をもたらす全ての実施形態をも含む。さらに、本発明の範囲は、請求項により画される発明の特徴の組み合わせに限定されるものではなく、全ての開示されたそれぞれの特徴のうち特定の特徴のあらゆる所望する組み合わせによって画されうる。

１，１０１，２０１，３０１書き起こしテキスト作成支援システム
１０，１１０，２１０，３１０書き起こしテキスト作成装置
２０分割音声データ分配装置
３０，３０Ａ，３０Ｂ，３０Ｃ書き起こし作業者端末

Claims

書き起こしテキスト作成装置と、
分割音声データ分配装置と、
を備え、
前記書き起こしテキスト作成装置は、
音声データを分割して複数の分割音声データを生成する分割音声データ生成部、
複数の前記分割音声データを、分割順が不連続となるように前記分割音声データ分配装置に送信する送信部、
複数の前記分割音声データの書き起こし結果である複数の分割テキストデータを受信する受信部、及び、
受信した複数の前記分割テキストデータを結合して、前記音声データの書き起こし結果である結合テキストデータを生成する結合テキストデータ生成部、
を有し、
前記分割音声データ分配装置は、
複数の前記分割音声データを、複数の書き起こし作業者の端末装置に分配する
書き起こしテキスト作成支援システム。
前記書き起こしテキスト作成装置は、分割された複数の前記分割音声データのそれぞれに、該分割音声データの分割順に対応しない分割ファイル名を付与する分割ファイル名付与部を備える
請求項１に記載の書き起こしテキスト作成支援システム。
前記分割音声データ分配装置は、前記音声データに含まれない音声を示す偽装データを使用して、前記分割音声データを生成する
請求項１又は２に記載の書き起こしテキスト作成支援システム。
前記書き起こしテキスト作成装置は、前記音声データ又は前記分割音声データに対して音声変調を行う音声変調部を備える
請求項１から３のいずれか１項に記載の書き起こしテキスト作成支援システム。
前記分割音声データ生成部は、複数の前記分割音声データの時間長がそれぞれ同一となるように前記音声データを分割する
請求項１から４のいずれか１項に記載の書き起こしテキスト作成支援システム。
前記分割音声データ生成部は、前記音声データを音節単位に分割する
請求項１から５のいずれか１項に記載の書き起こしテキスト作成支援システム。
前記分割音声データ生成部は、前記音声データのうち無音時間が基準時間以上である無音区間の位置を検知し、該無音区間において前記音声データを分割する
請求項６に記載の書き起こしテキスト作成支援システム。
前記分割音声データ生成部は、前記分割音声データの平均時間長が所定時間以下となるまで、前記無音区間の前記基準時間を徐々に短く設定して該無音区間での前記音声データの分割処理を繰り返す
請求項７に記載の書き起こしテキスト作成支援システム。
前記分割音声データ生成部は、前記分割音声データの平均時間長が１秒となるように前記分割音声データを生成する
請求項８に記載の書き起こしテキスト作成支援システム。
前記分割音声データ生成部は、一分割音声データの最後部の音声と、分割順が該一分割音声データの次である他の分割音声データの最初部の音声とが重複するようにして、前記音声データを分割する
請求項１から９のいずれか１項に記載の書き起こしテキスト作成支援システム。
前記音声データに対して音声認識処理を行う音声認識処理部と、
前記音声認識処理の結果の信頼度の判定を行う信頼度判定部と、
判定された前記信頼度が一定のレベル以下である場合に、前記分割音声データ生成部に対して前記音声データの分割指示を行う分割指示部と、を有する分割処理判定部
を備える
請求項１から１０のいずれか１項に記載の書き起こしテキスト作成支援システム。
前記結合テキストデータ生成部は、前記受信部で受信された複数の前記分割テキストデータを、前記分割音声データの分割順に対応する順番で結合して前記結合テキストデータを生成する
請求項１から１１のいずれか１項に記載の書き起こしテキスト作成支援システム。
音声データを分割して複数の分割音声データを生成する分割音声データ生成工程と、
前記分割音声データ生成工程で生成された複数の前記分割音声データを、分割順が不連続となるように複数の書き起こし作業者の端末装置に分配する分割音声データ分配工程と、
複数の前記書き起こし作業者の端末装置から、前記分割音声データ分配工程で分配された複数の前記分割音声データの書き起こし結果である複数の分割テキストデータを受信する分割テキストデータ受信工程と、
前記分割テキストデータ受信工程で受信した複数の前記分割テキストデータを結合して、前記音声データの書き起こし結果である結合テキストデータを生成する結合テキストデータ生成工程と、
を備える書き起こしテキスト作成支援方法。
コンピュータを、
複数の分割音声データを、複数の書き起こし作業者の端末装置に分配する分割音声データ分配部、
音声データを分割して前記複数の分割音声データを生成する分割音声データ生成部、
複数の前記分割音声データを、分割順が不連続となるように前記分割音声データ分配部に送信する送信部、
複数の前記分割音声データの書き起こし結果である複数の分割テキストデータを受信する受信部、及び、
受信した複数の前記分割テキストデータを結合して、前記音声データの書き起こし結果である結合テキストデータを生成する結合テキストデータ生成部、
として機能させるための書き起こしテキスト作成支援プログラム。