JP2013182353A - 音声文字変換作業支援装置、音声文字変換システム、音声文字変換作業支援方法及びプログラム - Google Patents

音声文字変換作業支援装置、音声文字変換システム、音声文字変換作業支援方法及びプログラム Download PDF

Info

Publication number
JP2013182353A
JP2013182353A JP2012044783A JP2012044783A JP2013182353A JP 2013182353 A JP2013182353 A JP 2013182353A JP 2012044783 A JP2012044783 A JP 2012044783A JP 2012044783 A JP2012044783 A JP 2012044783A JP 2013182353 A JP2013182353 A JP 2013182353A
Authority
JP
Japan
Prior art keywords
file
character
worker
audio
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012044783A
Other languages
English (en)
Other versions
JP5892598B2 (ja
Inventor
Hideo Shimazu
秀雄 島津
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Solution Innovators Ltd
Original Assignee
NEC System Technologies Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC System Technologies Ltd filed Critical NEC System Technologies Ltd
Priority to JP2012044783A priority Critical patent/JP5892598B2/ja
Publication of JP2013182353A publication Critical patent/JP2013182353A/ja
Application granted granted Critical
Publication of JP5892598B2 publication Critical patent/JP5892598B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

【課題】作業者の負担を軽減させると共に、正確な文字情報を迅速に出力することができる音声文字変換作業支援装置等を提供する。
【解決手段】音声文字変換作業支援装置10の制御部160の音声ファイル取得部161が取得した音声ファイルについて、音声認識部162が音声認識する。分割音声ファイル生成部163が、音声認識の結果に基づいて、集合文を分割した単文の分割音声ファイルを生成する。作業者特定部165は、その単文の筆記を行う作業者を特定する。通信部150は特定した作業者の作業者端末に対して、分割音声ファイルを送信する。その作業者が分割音声ファイルを文字ファイルに変換し、送信したものを通信部150が受信すると、文字ファイル結合部167が、単文の順番に沿って結合した文字ファイルを生成し、集合文の文字データを出力する。
【選択図】図2

Description

本発明は、音声文字変換作業を支援する音声文字変換作業支援装置、音声文字変換システム、音声文字変換作業支援方法及びプログラムに関する。
議会での口述筆記や講演者の同時通訳、あるいは聴覚障害者の授業中の要約筆記など、リアルタイムの音声文字変換に対する社会的要請は多いが、音声認識技術が不十分な現在、特殊な技能者が行う音声文字変換作業により為されている。
この口述筆記や要約筆記等の作業の軽減や正確化を図るために、作業者による口述筆記や要約筆記等を支援する装置等も知られている(例えば、特許文献1、2)。
特許文献1に記載の要約筆記システムは、正と副の2つの筆記装置が表示装置に接続されており、正筆記装置が筆記した内容が、最下行から表示され、正筆記装置を操作する作業者の指示により画面がスクロールされると、最下行の内容が一段上に表示され、その後、最下行に新しい内容が表示される構成となっている。また、副筆記装置は、正筆記装置の記載内容に過不足、誤記があれば、その内容を追記することができる。また、正、副の入れ替えを任意に行うことができる。
特許文献2に記載の音声自動応答装置は、ユーザから音声で個人情報等が入力されると、この音声を音声認識処理して、文字情報に変換するが、音声認識処理に失敗した場合には、ネットワークを経由してSOHO作業者に音声ファイルを送信し、SOHO作業者が文字ファイルに変換したものを受信してデータ保存する構成となっている。
特開平6−348413号公報 特開2002−140243号公報
議会、講演会、授業等で話者が話す速度は1分間に300字程度である。これに対し、人のタイピング速度は1分間に100字程度であるため、特許文献1に記載の技術のように正筆記装置の作業者が主に筆記するのでは追いつかない。ここで1字1句をタイプするのではなく要約筆記することにより時間短縮することもできるが、作業者の能力に大きく依存することになり、作業者の負担も大きくなる。
一方、視覚障害者の就労機会の提供という観点から、口述筆記、要約筆記の作業を視覚障害者が行うことを想定すると、視覚障害者がこれらの作業を行おうとするには、健常者よりもさらに大きな困難が伴う。
具体的には、口述筆記等では、話し始めるタイミング等の話者の状況のうち視覚による情報は重要であるが、視覚障害者は、それらの情報を利用できない。また、PCの視覚障害者用書き起こしソフトは、入力結果の正誤校正のために入力結果を音声読み上げする機能があるが、リアルタイムに口述筆記する場合は、それが話者の次の発話と重なり、聞き取りにくいという問題が生じる。この場合どちらにも集中できない為、誤記や入力文章の欠落がおきやすくなる。また、視覚障害者がパソコンで文字を入力する際、キー操作や漢字変換に対するガイド音声を聞きながらキ一入力するため、文字入力の速度は健常者よりも遅くなる。
このような困難により、視覚障害者の口述筆記、要約筆記の作業を行う仕事への就労機会は限られているという実情がある。
これに対して、複数の作業者に作業を分担させて、口述筆記等を行うことも考えられるが、作業を分割して割り振る管理者が必要となり、管理者の負担も大きくなる。特許文献2の技術は、複数の作業者に音声文字変換の作業を行わせる技術であるが、特許文献2では、質問に対する応答の数語からなる音声を文字情報に変えることを前提としているため、議会等の話者が連続して話す内容を筆記する場合には適用できない。
本発明は、上記実情に鑑みてなされたものであり、複数の作業者が連携して行う音声文字変換作業において、作業者の負担を軽減させると共に、正確な文字情報を迅速に出力することができる音声文字変換作業支援装置等を提供することを目的とする。
上記目的を達成するため、本発明の第1の観点に係る音声文字変換作業支援装置は、
音声を録音して生成した、音声ファイルを取得する音声ファイル取得手段と、
前記音声ファイルを構成する音声データが示す音声を認識して、前記音声データの分割位置を決定する分割位置決定手段と、
前記分割位置によって分割された分割音声データを文字データに変換する作業を割り当てる作業者を特定する作業者特定手段と、
前記作業者特定手段で特定された作業者が使用する作業者端末に対して、前記音声ファイル又は前記分割音声データからなる分割音声ファイルを送信する音声ファイル送信手段と、
前記音声ファイル送信手段で送信された前記音声ファイルのうち前記作業者特定手段で特定された作業者に割り当てられた分割音声データ、又は、前記分割音声ファイルの分割音声データを、前記音声ファイル又は前記分割音声ファイルを受信した前記作業者端末を使用する作業者が文字データに変換して生成した文字ファイルであって、前記作業者端末から送信された前記文字ファイルを受信する文字ファイル受信手段と、
前記文字ファイル受信手段で受信した文字ファイルを結合して集合文字ファイルを生成する集合文字ファイル生成手段と、
前記集合文字ファイル生成手段で取得した集合文字ファイルを出力する集合文字ファイル出力手段と、
を有することを特徴とする。
また、本発明の第2の観点に係る音声文字変換システムは、
受信した音声ファイルの音声データを文字データに変換して生成した文字ファイルを送信する複数の作業者端末と、前記作業者端末と通信接続された音声文字変換作業支援装置と、から構成される音声文字変換システムであって、
前記音声文字変換作業支援装置は、
音声を録音して生成した、音声ファイルを取得する音声ファイル取得手段と、
前記音声ファイルを構成する音声データが示す音声を認識して、前記音声データの分割位置を決定する分割位置決定手段と、
前記分割位置によって分割された分割音声データを文字データに変換する作業を割り当てる作業者を特定する作業者特定手段と、
前記作業者特定手段で特定された作業者が使用する作業者端末に対して、前記音声ファイル又は前記分割音声データからなる分割音声ファイルを送信する音声ファイル送信手段と、
前記音声ファイル送信手段で送信された前記音声ファイルのうち前記作業者特定手段で特定された作業者に割り当てられた分割音声データ、又は、前記分割音声ファイルの分割音声データを、前記音声ファイル又は前記分割音声ファイルを受信した前記作業者端末を使用する作業者が文字データに変換して生成した文字ファイルであって、前記作業者端末から送信された前記文字ファイルを受信する文字ファイル受信手段と、
前記文字ファイル受信手段で受信した文字ファイルを結合して集合文字ファイルを生成する集合文字ファイル生成手段と、
前記集合文字ファイル生成手段で取得した集合文字ファイルを出力する集合文字ファイル出力手段と、を備えた、
ことを特徴とする。
また、本発明の第3の観点に係る音声文字変換作業支援方法は、
音声を録音して生成した、音声ファイルを取得する音声ファイル取得ステップと、
前記音声ファイルを構成する音声データが示す音声を認識して、前記音声データの分割位置を決定する分割位置決定ステップと、
前記分割位置によって分割された分割音声データを文字データに変換する作業を割り当てる作業者を特定する作業者特定ステップと、
前記作業者特定ステップで特定された作業者が使用する作業者端末に対して、前記音声ファイル又は前記分割音声データからなる分割音声ファイルを送信する音声ファイル送信ステップと、
前記音声ファイル又は前記分割音声ファイルを受信した前記作業者端末を使用する作業者が、前記音声ファイル送信手段で送信された前記音声ファイルのうち前記作業者特定手段で特定された作業者に割り当てられた分割音声データ、又は、前記分割音声ファイルの分割音声データを、文字データに変換して文字ファイルを生成する文字ファイル生成ステップと、
前記作業者が生成して前記作業者端末から送信された文字ファイルを受信する文字ファイル受信ステップと、
前記文字ファイル受信ステップで受信した文字ファイルを結合して集合文字ファイルを生成する集合文字ファイル生成ステップと、
前記集合文字ファイル生成ステップで取得した集合文字ファイルを出力する集合文字ファイル出力ステップと、
を有することを特徴とする。
また、本発明の第4の観点に係るプログラムは、
複数の作業者が使用する作業者端末と通信接続されたコンピュータに、
音声を録音して生成した、音声ファイルを取得する音声ファイル取得手順と、
前記音声ファイルを構成する音声データが示す音声を認識して、前記音声データの分割位置を決定する分割位置決定手順と、
前記分割位置によって分割された分割音声データを文字データに変換する作業を割り当てる作業者を特定する作業者特定手順と、
前記作業者特定手順で特定された作業者が使用する前記作業者端末に対して、前記音声ファイル又は前記分割音声データからなる分割音声ファイルを送信する音声ファイル送信手順と、
前記音声ファイル送信手順で送信された前記音声ファイルのうち前記作業者特定手順で特定された作業者に割り当てられた分割音声データ、又は、前記分割音声ファイルの分割音声データを、前記音声ファイル又は前記分割音声ファイルを受信した前記作業者端末を使用する作業者が文字データに変換して生成した文字ファイルであって、前記作業者端末から送信された前記文字ファイルを受信する文字ファイル受信手順と、
前記文字ファイル受信手順で受信した文字ファイルを結合して集合文字ファイルを生成する集合文字ファイル生成手順と、
前記集合文字ファイル生成手順で取得した集合文字ファイルを出力する集合文字ファイル出力手順と、
を実行させることを特徴とする。
本発明によれば、複数の作業者が連携して行う音声文字変換作業において、作業者の負担を軽減させると共に、正確な文字情報を迅速に出力することができる。
本発明の実施形態に係る音声文字変換システムの構成を示す図である。 本発明の実施形態1に係る音声文字変換作業支援装置の内部構成を示すブロック図である。 記憶部に保存される(a)音声ファイル、(b)集合文管理表、(c)作業者管理表を示す図である。 音声ファイル出力処理を示すフローチャートである。 集合文出力処理を示すフローチャートである。 記憶部に保存される(a)音声ファイル、(b)集合文管理表、(c)作業者管理表を示す図である。 本発明の実施形態2に係る作業者管理表を示す図である。 本発明の実施形態3に係る作業者管理表を示す図である。
最初に、本発明の実施形態において用いる言葉の定義について説明する。
講演等をする発話者が話す文章は、複数の文で構成される。講演等で口述筆記を行う単位の文章は、文の数が1の場合もあるし、1文の長さが短い場合は文の数が2〜5になる場合もある。この口述筆記を行う単位の文章の長さは、講演会などの同時通訳をするときの一般的な長さ程度を想定している。この口述筆記を行う単位の文章の全体を「集合文」と呼ぶ。講演等の場合は、複数の集合文が存在することを仮定しており、集合文単位に一意のIDを値の小さい順に割り当てることとする。そのIDを集合文IDと呼ぶ。
1つの集合文に含まれる1文を「単文」と呼ぶ。1つの集合文の中には、複数の単文が存在するので、単文ごとに一意のIDを値の小さい順に割り当てることとする。そのIDを単文IDと呼ぶ。なお、ここでの1つの単文IDで示される文は厳密に1文である必要はない。文と文の境界が明確でないために実際は2文を単文と扱ってもよい。
(実施形態1)
以下、本発明の実施形態1について図面を参照して詳細に説明する。
本実施形態に係る音声文字変換システム1は、図1に示すように、音声文字変換作業支援装置10と、ネットワーク20と、複数の作業者端末30から構成される。この音声文字変換システム1は、複数の作業者が連携してリアルタイムの口述筆記作業を行い、文字情報を出力するシステムである。つまり、複数の作業者が、1人の話者が話す内容を分担して文字入力し、ひとつの文章として組み立てて出力する。音声文字変換作業支援装置10は、作業の分担や作業結果をまとめる管理エージェントとしての役割を担う。
図1において、ネットワーク20は、音声文字変換作業支援装置10と、複数の作業者端末30を互いに通信接続することが可能な任意の通信ネットワークであり、公衆回線を用いたネットワークでも、専用線を用いたネットワークでもよい。
作業者端末30は、音声文字変換作業支援装置10からネットワーク20を介して受信した音声をスピーカ出力し、その音声を聞いた作業者が入力する文字データから構成される文字ファイルを音声文字変換作業支援装置10に対して送信する機能を有する端末であり、一般的なパーソナルコンピュータ等から構成される。
音声文字変換作業支援装置10は、図2に示すように、マイク110、音声信号処理部120、記憶部130、表示部140、通信部150、制御部160から構成される。
マイク110は、話者が発する声などの音声を拾音し、電気信号に変換して出力する。音声信号処理部120は、マイク110から出力される電気信号を、増幅やAD変換等の処理を施して、音声データ信号を生成して制御部160に出力する。
記憶部130は、ハードディスクドライブ等から構成される大容量記憶装置であり、音声ファイル131、集合文管理表132、作業者管理表133、文字ファイル134や、制御部160で実行する処理のプログラム等の各種データを記憶する。
ここで、音声ファイル131は、音声信号処理部120から入力された音声データ信号からなる音声ファイルと、その音声ファイルを分割した分割音声ファイルを含む。また、集合文管理表は、それぞれの音声ファイル131を管理する表であり、またそれぞれの音声ファイル131の音声を文字に変換する作業者、変換結果等を管理する表である。作業者管理表133は、音声文字変換作業支援装置10と通信可能な作業端末30で作業する作業者とその作業状態を管理する表である。文字ファイル134は、作業者が筆記を行った文字ファイル及びそれを結合した集合文の文字ファイルを含む。
表示部140は、例えば、LCD(Liquid Crystal Display)等の表示デバイスから構成され、画像、図形、文字、記号などの情報表示出力を行う。表示部15には、CPU160から出力された文字ファイルが示す文字列等を表示する。
通信部150は、ネットワーク20を介して、作業者端末30それぞれとデータの送受信を行う。
制御部160は、CPU(Central Processing Unit)等から構成され、音声文字変換作業支援装置10の各構成部を制御すると共に、記憶部130に記憶されている各種プログラムを実行することにより、音声ファイル出力機能や、集合文出力機能等の音声文字変換作業支援装置10の有する機能を実現する。
制御部160は、音声ファイル出力機能や、集合文出力機能を実現するために、図2に示すように、音声ファイル取得部161、音声認識部162、分割音声ファイル生成部163、音声ファイル出力部164、作業者特定部165、文字ファイル取得部166、文字ファイル結合部167の各機能部を有する。
また、制御部160は、音声を録音した時刻又は音声の長さを取得するためのタイマーや音声認識した結果を一時保存するための内部メモリを備えている。
音声ファイル取得部161は、音声信号処理部120から入力された音声データ信号からなる音声ファイル131を生成し、音声認識部162に出力する。また、音声ファイル取得部161は記憶部130に音声ファイル131を出力し記憶させる。
音声認識部162は、音声ファイル取得部161から入力された音声ファイル131を構成する音声データが示す音声を認識するアルゴリズムを有している。音声認識部162は、音声認識した結果を示す情報と元の音声ファイルを、分割音声ファイル生成部163に出力する。
ここで、現在の音声認識技術では、100%の精度で音声認識をすることは困難であるため、ここでの音声認識の結果は、一語一句の音声認識を正確にすることを前提とはしておらず、文と文の区切りを判定することに使う。
一例として、発話者が
「試験管をもってください。ビーカーにいれましょう。中の様子はどうなりましたか」
という3つの文を発話したとする。これを音声認識させると、認識エラーを起こし、
「試験がくもってください。/時間内にいれましょう。/倉庫のホースは曲がりましたか」
のように、誤って認識される場合もある。しかし、本実施形態の用途としては、文の分割位置が見つかり3つの文であることが認識されてさえいれば問題ない。
さらに、文の分割位置も認識エラーを起こす可能性もある。例えば、
「試験がくもってくらい時間内にいれましょう。/倉庫のホースは曲がりましたか」
のように、最初の2つの文を誤って1つの文として認識してしまう場合もあるかもしれないが、それでもかまわない。分割位置で分割された音声データはそれぞれの作業者に送信されるが、作業者は、複数の文からなる文や、文の途中で終わる文や、文の途中から始まる文がくる場合もあることを念頭において作業を行うものとする。
具体的に文の分割位置を探索する方法について説明する。まず、音声ファイルを構成する音声データについて音声認識を行い、認識された文字1つずつに対して、Str[先頭からの文字数番目、文字名、先頭から何秒目であるか、1]の4組の配列形式で制御部160の内部メモリに一時記憶される。ここで、第3引数は、制御部160の内部のタイマーにより計測される。例えば、元の音声ファイルが「ください。入れましょう。中は」であった場合には、配列Strは以下のように一時記憶される。
Str[1、く、0.1、1]
Str[2、だ、0.3、1]
Str[3、さ、0.5、1]
Str[4、い、0.7、1]
Str[5、。、0.8、1]
Str[6、い、2.0、1]
Str[7、れ、2.3、1]
Str[8、ま、2.7、1]
Str[9、しょ、3.1、1]
Str[10、う、3.3、1]
Str[11、。、3.4、1]
Str[12、な、5.2、1]
Str[13、か、5.4、1]
Str[14、は、5.7、1]
配列Strの配列要素を先頭から最後まで見ていき、第2引数の値が、文の区切り記号の場合、その配列要素以降のすべての配列要素の第4引数の値に1を加える。ここでは、配列要素が5番目と11番目が「。」であり区切り記号として認識されるため、配列Strは、以下のようになる
Str[1、く、0.1、1]
Str[2、だ、0.3、1]
Str[3、さ、0.5、1]
Str[4、い、0.7、1]
Str[5、。、0.8、1]
Str[6、い、2.0、2]
Str[7、れ、2.3、2]
Str[8、ま、2.7、2]
Str[9、しょ、3.1、2]
Str[10、う、3.3、2]
Str[11、。、3.4、2]
Str[12、な、5.2、3]
Str[13、か、5.4、3]
Str[14、は、5.7、3]
配列Strの配列要素を先頭から最後まで見ていき、第4引数が同一の配列要素のうち先頭の第3引数の値を分割音声の開始時刻、第4引数が同一の配列要素のうち最後の第3引数の値を終了時刻として認識することができる。上記の例では、第4引数が1のものは、開始時刻が0.1秒、終了時刻が0.8秒である。また、第4引数が2のものは、開始時刻が2秒、終了時刻が3.4秒である。さらに、第4引数が3のものは、開始時刻が5.2秒、終了時刻が5.7秒である。
音声認識部162は、第4引数に対応する分割音声ファイルの名前を決定すると共に分割音声の開始時刻と終了時刻の情報を分割音声ファイル生成部163に出力する。
分割音声ファイル生成部163は、音声認識部162から入力された音声ファイルと、分割音声の開始時刻と終了時刻の情報に基づいて複数の分割音声ファイルを生成する。そして、生成した分割音声ファイルを記憶部130と音声ファイル出力部164に出力する。また、分割音声ファイルに関する情報を時系列順に並べて記憶部130の集合文管理表132に格納する。
集合文管理表132について図3を用いて詳細に説明する。元の音声ファイルが図3(a)に示すように「試験管をもってください。ビーカーにいれましょう。中の様子はどうなりましたか」である場合を例として説明する。
まず、元の音声ファイルには集合文に対して付される集合文IDが付される。図3(b)の例では、C1という集合文IDが付されている。
また、分割音声ファイル生成部163が生成する分割音声ファイルは、音声認識部162から入力される分割音声ファイルの名前と、単文IDが付されて記憶部130に記憶される。図3(b)の例では、「試験管をもってください。」「ビーカーにいれましょう。」「中の様子はどうなりましたか」という3つの分割音声が生成され、「音声1.mp3」「音声2.mp3」「音声3.mp3」の3つの名前と、単文ID、「S1」「S2」「S3」が付されている。
また、複数の集合文から生成された分割音声ファイル全てに対して、分割音声ファイルが新規に生成されるたびに一意のレコードIDも付されており、このレコードIDも集合文管理表132に格納されている。図3(b)ので入れは、集合文IDが「C1」のファイルのうち、単文IDが「S1」〜「S3」のファイルにそれぞれレコードID「R1」〜「R3」が付されており、他の集合文IDのファイルに対しては、「R4」以降の他のレコードIDが付される。
その他、集合文格納表132には、タイマーから読み取った時刻の値を示す「格納時刻」、分割音声について筆記された結果を示す「単文筆記結果」、分割音声を筆記する前か、筆記中か、筆記が終了していることを示す「単文処理状態」、筆記作業を行う作業者の「作業者ID」、集合文が出力されたか否かを示す「集合文出力状態」の情報が格納されている。
音声ファイル出力部164は、分割音声ファイル生成部163から入力された分割音声ファイルを作業者端末30に送るタイミングで、通信部150に出力する。
作業者特定部165は記憶部130に記憶されている集合文管理表132、作業者管理表133に基づいて、分割音声ファイルを送信する宛先である作業者端末を特定する。
作業者特定部165は、集合文管理表132を参照して単文処理状態が「筆記前」の単文の中から選択した単文の単文IDを特定する。
図3(c)に示すように、作業者管理表133には、筆記作業を行う作業者の作業者IDそれぞれについて、作業者の状態及びその作業者が筆記作業を行っている音声ファイル名が格納されている。作業者状態は、筆記作業を行っている最中であること示す「作業中」と作業を行っていないことを示す「作業なし」が格納される。
作業者特定部165は、作業者状態が「作業なし」となっている作業者IDの中から選択した1つの作業者IDを特定する。この作業者IDを、集合文管理表165から特定した単文IDに対応する作業者IDとして集合文管理表165に格納し、その単文IDの単文処理状態を「作業中」に変更する。ここで対応付けた単文IDの分割音声ファイル名を、作業者管理表133の作業中ファイル名として格納し、作業者状態を「作業中」に変更する。
図3の例において、集合文管理表132の単文処理状態が「筆記前」の単文IDは、「S3」のみである。よって、この単文ID「S3」を特定する。一方、作業者管理表133の作業者状態が「作業なし」の作業者IDはMan3のみである。よって、作業者IDがMan3の作業者を単文ID「S3」の分割音声ファイル「音声3.mp3」の作業者として特定する。特定した作業者ID「Man3」と、分割音声ファイル名「音声3.mp3」を通信部150に出力する。その後、集合文管理表132の単文ID「S3」に対応する単文処理状態を「筆記中」に変更し、作業者IDに「Man3」を格納する。また、作業者管理表133の「Man3」の作業者状態を「作業中」に変更し、作業ファイル名「音声3.mp3」を格納する。
音声ファイル出力部164から通信部150に入力された分割音声ファイルは、作業者特定部で特定された作業者IDの作業者端末30に対して通信部150より出力される。ここで、記憶部130には、作業者IDと作業者端末30の宛先情報が対応づけて記憶されている。宛先情報は、メールアドレスやインターネット通話のアカウントID等、ネットワーク20の通信方式に対応した宛先を示す情報である。通信部150は、作業者端末30の宛先情報を読み出して、その宛先情報が示す宛先に対して分割音声ファイルを送信する。
作業者端末30に送信された分割音声ファイルは、作業者端末30で音声出力され、作業者は、その音声を文字に変換し作業者端末30に文字入力する。文字入力されることにより生成された文字ファイルが音声文字変換作業支援装置10に対して送信され、通信部150がその文字ファイルを受信する。
文字ファイル取得部166は、通信部150を介して入力された文字ファイルを取得する。取得した文字ファイルは、単文IDと文字データからなる。文字ファイル結合部167は、取得した文字ファイルを集合文管理表の単文IDを参照することにより、文字ファイルを結合する順番を特定し、文字ファイルを結合し、集合文を生成する。文字ファイル結合部167は、結合前の文字ファイルの文字データを集合文管理表の「単文筆記結果」に格納するとともに、集合文の文字ファイル134を記憶部130に保存する。
また、文字ファイル結合部167は生成した集合文の文字データを表示部140に出力し、表示部140に文字情報を表示させる。
次に、以上のように構成された音声文字変換作業支援装置10の動作を、図2乃至5を参照して説明する。
音声文字変換作業支援装置10は、マルチプロセス又はマルチスレッド処理が可能なOS上で実装されている。このため、複数の集合文に対して、音声ファイル出力処理、集合文出力処理を含む複数の処理を同時に処理することができる。この構成により、作業者が筆記作業を行った結果が返信されてくるのを待たずに、他の音声ファイルの処理を行うこともできる。以下に説明する音声ファイル出力処理、集合文出力処理は、制御部160が実行する1つのソフトウェアとして存在するが、レコードの処理ごとにプロセスまたはスレッドを生成する形態で実現することにより、擬似的に同時処理が可能となる。
まず、制御部160が実行する音声ファイル出力処理について、図4のフローチャートに沿って説明する。
音声ファイル出力処理は、制御部160内部のタイマーによって、定期的に実行される。実行の一般的なタイミングとしては、集合文管理表132に格納されるレコード数が多い場合は1秒単位でもよいし、一方、集合文管理表132に格納されるレコード少なく、同時に発話する者がいないか1人いる程度なら、数秒単位でもよい。また、新規のレコードが追加されなければ、その間は起動しなくてもよい。
まず、音声ファイル取得部161が音声信号処理部120から入力された音声データから構成される音声ファイルを取得する(ステップS101)。取得した音声ファイルは複数の文からなる集合文であるため、集合文IDを割り当てる(ステップS102)。
音声認識部162は音声ファイルが示す音声に対して、先頭から順に1文字ずつ音声認識を行い(ステップS103)、文末を探索する。文末を検出しない場合は(ステップS104:No)、音声認識を継続する(ステップS103)。文末を検出した場合には(ステップS104:Yes)、分割音声ファイル生成部163が、文末を検出した文の先頭文字が発せられた開始時間と、末尾文字が発せられた終了時刻を取得して、開始時刻から終了時刻までの音声ファイルを分割音声ファイルとして生成する(ステップS105)。
分割音声ファイル生成部163は、生成した分割音声ファイルについて、単文IDを割り当てて(ステップS106)、単文IDと分割音声ファイル名を集合文管理表132に格納する。また、分割音声ファイル名を付した分割音声ファイルを記憶部130に記憶する(ステップS107)と共に音声ファイル出力部164に出力する。
ステップS105で生成した分割音声ファイルが示す単文の文末が、集合文の末尾であるか否かを判定し(ステップS108)、単文の文末が、集合文の末尾でない場合には(ステップS108:No)、さらに単文を生成する必要があるため、ステップS103に戻って、単文の生成等の処理を継続する。一方、単文の文末が集合文の末尾であると判定された場合には(ステップS108:Yes)、ステップS109に進む。
ステップS109以降では、複数の単文を単文IDの小さい順に作業者の割り当てを行う。まず単文IDの番号を1とし(ステップS109)、単文IDがS1の単文について筆記作業を行う作業者を特定する。作業者の特定は、作業者特定部165が作業者管理表の中で作業者状態が「作業なし」となっている作業者IDの中から作業者IDを選択することにより行う(ステップS110)。作業者特定部165は、特定した作業者IDを通信部150に出力する。
通信部150は、作業者特定部165から入力された作業者IDの作業者端末30に対して、音声ファイル出力部164から入力された分割音声ファイルを送信する(ステップS111)。
単文IDの番号を1ずつ増加させ(ステップS112)、単文IDの番号が、単文IDの数Nを超えない限りは(ステップS113:No)、ステップS110〜S112までの処理を繰り返し行う。ここで、単文IDの数Nは、同じ集合文IDに対応する単文IDの総数であり、図3の例では、「3」である。ステップS113で単文IDの番号が単文IDの数Nを超えた場合には(ステップS113:Yes)、全ての単文の送信が終了したとして、処理を終了する。
次に、制御部160が実行する集合文出力処理について、図5のフローチャートに沿って説明する。
集合文出力処理は、制御部160内部のタイマーによって、定期的に実行される。この集合文出力処理は、集合文を複数の単文に分割した分割音声ファイルに対し、作業者が個々の単文について筆記したものを1つにまとめて出力する処理である。単文の筆記処理が終わった物から順に単文単位で出力せず、集合文単位で出力する理由は、複数の単文に分割した分割音声ファイルの筆記作業を複数の作業者に依頼したときに、必ずしも先頭の文から文字ファイルを受信するとは限らないためである。仮に先頭の単文をスキルの低い人に割り当て、2番目や3番目の単文をスキルの高い人に割り当てた場合、先に2番目や3番目の文を受信するために先に出力し、そのあとから1番目の文を出力しても、文章の意味が不明になってしまうからである。
まず、集合文管理表132の集合文出力状態が「出力後」でない集合文IDがあるか否かを判定する(ステップS201)。全ての集合文IDの集合文出力状態が「出力後」であった場合には(ステップS201:No)、筆記作業すべきデータがないため、処理は終了する。
集合文管理表132の集合文出力状態が「出力後」でなく「出力前」又は未格納であった場合には(ステップS201:Yes)、ステップS202に進む。
ステップS202で、作業者端末30から単文の文字ファイルの受信がないか監視する。単文の文字ファイルの受信がない場合には(ステップS202:No)最初にもどり、文字データ受信の監視を継続する。一方、単文の文字ファイルを受信した場合には(ステップS202:Yes)、受信した文字ファイルを内部メモリに一時保存する(ステップS203)。このとき文字ファイルからレコードIDを取得し、集合文管理表132のレコードIDに対応させて各データを格納する。具体的には、取得したレコードIDの単文筆記結果に、作業者が筆記処理した文字データを格納し、単文処理状態を「筆記後」とし、集合文出力状態を「出力前」とする。
受信した文字ファイルに対応する集合文IDの全単文の文字データが保存されたか否かを判定する(ステップS204)。その集合文IDに対応する全単文IDの文字データが保存されておらず、全単文IDの単文処理状態が「筆記後」となっていない場合には(ステップS204:No)、未保存の文字データがあるため、ステップS201に戻り文字データ受信の監視を継続する。その集合文IDに対応する全単文IDの文字データが保存され、全単文IDの単文処理状態が「筆記後」となっている場合には(ステップS204:Yes)、ステップS205の処理に進む。
ステップS205では、同じ集合文IDの文字データを単文IDの番号順に結合して集合文の文字ファイルを生成する。その後、生成した集合文の文字ファイルの文字データを図6(a)のように、表示部140に表示させる。また、その文字ファイル134を記憶部130に保存する(ステップS206)。
集合文の文字ファイル134の文字データを出力、保存させた時、集合文管理表132は、図6(b)に示すように単文筆記結果に各文字データが格納され、単文処理状態はすべて「筆記後」となり、集合文出力状態は「出力後」となる。また、作業者管理表133は、図6(c)に示すように、全ての作業者IDの作業者状態が「作業なし」となり、次の集合文の筆記作業が割り当てられるのを待機する状態となる。
以上説明したように、本実施形態においては、音声文字変換作業支援装置10の制御部160が、取得した音声ファイルについて音声認識し、集合文を分割した単文の分割音声ファイルを生成し、複数の作業者から選択した作業者の作業者端末に対して、分割音声ファイルを送信し、その作業者が分割音声ファイルを文字ファイルに変換したものを受信した後に、単文の順番に沿って結合した文字ファイルを生成し、集合文の文字データを出力することとした。これにより、集合文を複数の作業者が分担して筆記作業を行うため、作業者に高いスキルを要求することなく文字情報を迅速に取得することができ、作業者の負担も軽減することができる。
また、音声文字変換作業支援装置10とネットワーク20を介して接続された作業者端末で作業ができるため作業者が自宅やオフィスにいながら、講演会等の口述筆記作業を行うことができる。
また、入力作業に時間がかかる視覚障害者等にも、口述筆記作業が可能となり、視覚障害者の雇用機会も増大させることができる。
(実施形態2)
以下、本発明の実施形態2について図7を参照して詳細に説明する。
本実施形態に係る音声文字変換システム1の構成、音声文字変換作業支援装置10の内部構成は、実施形態1と同様である。作業者管理表173に各作業者の累積処理数の情報が格納されている点が、実施形態1と異なる。
記憶部130に記憶される作業者管理表173の累積処理数の欄には、その作業者IDの作業者が筆記作業を行う度に、累積処理数を1ずつ加算していく。作業者特定部165が作業者を特定する際に、作業者管理表173の作業者状態が「作業なし」となっている作業者IDのうち、累積処理数が最も少ない作業者を特定する。
作業者端末30で作業する作業者は、全員が同時に一斉に始めて同時に終わるとは限らない。作業者によっては、時間的都合で途中から参加したり、途中で早退する場合もある。また、長い時間作業をしている人は、疲れがたまっていると思われる。そこで、作業者への割り当て回数が一律になるように、これまでの累積処理回数を記録しておき、累積回数が少ない人に優先的に仕事を割り当てるように作業者の特定を行うようにしたものである。
以上説明したように、本実施形態においては、作業者管理表173に各作業者の累積処理数を格納し、それに基づいて作業者の特定を行うこととした。これにより、一部の作業者の負担が増大すること等を回避することができ、作業効率をより向上させることができる。
(実施形態3)
以下、本発明の実施形態3について図8を参照して詳細に説明する。
本実施形態に係る音声文字変換システム1の構成、音声文字変換作業支援装置10の内部構成は、実施形態1と同様である。作業者管理表183に各作業者のスキルレベルの情報が格納されている点が、実施形態1と異なる。
記憶部130に記憶される作業者管理表183のスキルレベルの欄には、その作業者IDの作業者が筆記作業を行うスピード、正確さからレベル付けした数字が格納されている。ここでは、数字が小さいほどスキルレベルが高いとする。このスキルレベルの数字は、音声文字変換作業支援装置10の管理者が入力したものである。図8の作業者IDがMan1、Man2はスキルレベル1が格納されており、Man3はスキルレベル2が格納されているため、Man1、Man2の作業者の方がMan3の作業者よりも、スキルレベルが高く、筆記作業を速く正確に行えることが示されている。
作業者特定部165が作業者を特定する際に、作業者管理表183の作業者状態が「作業なし」となっている作業者IDのうち、スキルレベルの高い作業者に高い頻度で特定するようにする。
高いスキルを持っている人は、次々に仕事を与えられでも順調にこなしていくことができるが、低いスキルの人は、1つ1つの作業を完結するにも時間がかかり、作業と作業の聞にも時間の余裕を与えないと、各作業の正確性が悪化してしまう。そこで、作業者ごとに、作業者のスキルレベルを記憶しておき、スキルレベルの高い作業者に高い頻度で特定するようにする。
また、単文の音声データの長さを取得し、長い音声データの単文の筆記作業をスキルレベルの高い作業者に割り当て、短い音声データの単文の筆記作業をスキルレベルの低い作業者に割り当ててもよい。
以上説明したように、本実施形態においては、作業者管理表183に各作業者のスキルレベルを格納し、それに基づいて作業者の特定を行うこととした。これにより、作業効率をより向上させることができるとともに、正確な文字データの出力が可能となる。
このように、本発明によれば、取得した音声ファイルを構成する音声データが示す音声を認識し、音声データの分割位置を決定し、その分割位置によって分割された分割音声ファイルに対して音声文字変換作業を行う作業者を特定し、その作業者に分割音声ファイルを送信し、作業者が音声文字変換作業を行って生成した文字ファイルを受信し、受信した文字ファイルを順に結合して集合文の文字ファイルを出力することとしたため、作業者の負担を軽減させると共に、正確な文字情報を迅速に出力することができる。
なお、本発明は、上記実施形態に限定されず、本発明の要旨を逸脱しない範囲での種々の変更は勿論可能である。
上記実施形態において、講演会などの発話を筆記する口述筆記を例として示したが、作業者が行う作業は、口述筆記に限られず、発話内容を要約して筆記する要約筆記や、外国語の発話内容を翻訳して筆記する同時通訳等にも適用することができる。この場合、図3(b)の単文筆記結果に、要約または通訳した結果が入力されることとなる。
また、音声文字変換作業支援装置10の制御部160は、取得した音声ファイルの音声を認識して分割して分割音声ファイルを生成し、分割音声ファイルを各作業者に送信するとしたが、分割音声ファイルを生成せず、元の音声ファイルと、分割位置を示す情報を作業者に送信しても良い。これにより、分割音声ファイルを生成する処理を省略でき、また、記憶部130に保存する音声ファイルの容量も削減することができる。また、元の音声ファイルを複数の作業者に一斉送信し、分割位置を示す情報を各作業者に送信することもできるため、通信処理を簡略化させることができる。
また、音声文字変換作業支援装置10の制御部160が実行した処理のプログラムを、既存の情報処理端末に適用することで、当該情報処理端末を本発明に係る音声文字変換作業支援装置10として機能させることも可能である。
このようなプログラムの配布方法は任意であり、例えば、CD−ROM(Compact Disk Read-Only Memory)、DVD(Digital Versatile Disk)、MO(Magneto Optical Disk)、メモリカード等のコンピュータ読み取り可能な記録媒体に格納して配布してもよいし、インターネット等の通信ネットワークを介して配布してもよい。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
音声を録音して生成した、音声ファイルを取得する音声ファイル取得手段と、
前記音声ファイルを構成する音声データが示す音声を認識して、前記音声データの分割位置を決定する分割位置決定手段と、
前記分割位置によって分割された分割音声データを文字データに変換する作業を割り当てる作業者を特定する作業者特定手段と、
前記作業者特定手段で特定された作業者が使用する作業者端末に対して、前記音声ファイル又は前記分割音声データからなる分割音声ファイルを送信する音声ファイル送信手段と、
前記音声ファイル送信手段で送信された前記音声ファイルのうち前記作業者特定手段で特定された作業者に割り当てられた分割音声データ、又は、前記分割音声ファイルの分割音声データを、前記音声ファイル又は前記分割音声ファイルを受信した前記作業者端末を使用する作業者が文字データに変換して生成した文字ファイルであって、前記作業者端末から送信された前記文字ファイルを受信する文字ファイル受信手段と、
前記文字ファイル受信手段で受信した文字ファイルを結合して集合文字ファイルを生成する集合文字ファイル生成手段と、
前記集合文字ファイル生成手段で取得した集合文字ファイルを出力する集合文字ファイル出力手段と、
を有することを特徴とする音声文字変換作業支援装置。
(付記2)
前記音声ファイル取得手段で取得する前記音声ファイルは、音声を録音している時の時刻情報を含んでおり、
前記分割位置決定手段で決定した前記分割位置は、前記時刻情報で示されている、
ことを特徴とする付記1に記載の音声文字変換作業支援装置。
(付記3)
前記分割位置決定手段は、前記音声ファイルの音声を認識して、文章の文頭又は文末を検出し、前記文頭の前又は文末後を前記分割位置として決定する、
ことを特徴とする付記1又は2に記載の音声文字変換作業支援装置。
(付記4)
予め登録している前記作業者各々に対して、前記作業者に前記音声データを文字データに変換する作業を割り当てているか否かを示す現在の作業者の情報を記憶する記憶部をさらに有し、
前記作業者特定手段は、前記記憶部に記憶されている現在の作業者の情報に基づいて、現在、前記音声データを文字データに変換する作業を割り当てていない前記作業者を特定する、
ことを特徴とする付記1乃至3のいずれか1項に記載の音声文字変換作業支援装置。
(付記5)
前記記憶部には、前記作業者各々に対して、前記作業者が処理した、前記音声データを文字データに変換する作業の数を示す累積処理数も記憶しており、
前記作業者特定手段は、前記累積処理数の少ない前記作業者を特定する、
ことを特徴とする付記4に記載の音声文字変換作業支援装置。
(付記6)
前記記憶部には、前記作業者各々に対して、前記作業者の前記音声データを文字データに変換する作業の処理能力レベルを示す情報も記憶しており、
前記作業者特定手段は、前記処理能力レベルを示す情報を含む情報に基づいて、前記作業者を特定する、
ことを特徴とする付記4又は5に記載の音声文字変換作業支援装置。
(付記7)
受信した音声ファイルの音声データを文字データに変換して生成した文字ファイルを送信する複数の作業者端末と、前記作業者端末と通信接続された音声文字変換作業支援装置と、から構成される音声文字変換システムであって、
前記音声文字変換作業支援装置は、
音声を録音して生成した、音声ファイルを取得する音声ファイル取得手段と、
前記音声ファイルを構成する音声データが示す音声を認識して、前記音声データの分割位置を決定する分割位置決定手段と、
前記分割位置によって分割された分割音声データを文字データに変換する作業を割り当てる作業者を特定する作業者特定手段と、
前記作業者特定手段で特定された作業者が使用する作業者端末に対して、前記音声ファイル又は前記分割音声データからなる分割音声ファイルを送信する音声ファイル送信手段と、
前記音声ファイル送信手段で送信された前記音声ファイルのうち前記作業者特定手段で特定された作業者に割り当てられた分割音声データ、又は、前記分割音声ファイルの分割音声データを、前記音声ファイル又は前記分割音声ファイルを受信した前記作業者端末を使用する作業者が文字データに変換して生成した文字ファイルであって、前記作業者端末から送信された前記文字ファイルを受信する文字ファイル受信手段と、
前記文字ファイル受信手段で受信した文字ファイルを結合して集合文字ファイルを生成する集合文字ファイル生成手段と、
前記集合文字ファイル生成手段で取得した集合文字ファイルを出力する集合文字ファイル出力手段と、を備えた、
ことを特徴とする音声文字変換システム。
(付記8)
音声を録音して生成した、音声ファイルを取得する音声ファイル取得ステップと、
前記音声ファイルを構成する音声データが示す音声を認識して、前記音声データの分割位置を決定する分割位置決定ステップと、
前記分割位置によって分割された分割音声データを文字データに変換する作業を割り当てる作業者を特定する作業者特定ステップと、
前記作業者特定ステップで特定された作業者が使用する作業者端末に対して、前記音声ファイル又は前記分割音声データからなる分割音声ファイルを送信する音声ファイル送信ステップと、
前記音声ファイル又は前記分割音声ファイルを受信した前記作業者端末を使用する作業者が、前記音声ファイル送信手段で送信された前記音声ファイルのうち前記作業者特定手段で特定された作業者に割り当てられた分割音声データ、又は、前記分割音声ファイルの分割音声データを、文字データに変換して文字ファイルを生成する文字ファイル生成ステップと、
前記作業者が生成して前記作業者端末から送信された文字ファイルを受信する文字ファイル受信ステップと、
前記文字ファイル受信ステップで受信した文字ファイルを結合して集合文字ファイルを生成する集合文字ファイル生成ステップと、
前記集合文字ファイル生成ステップで取得した集合文字ファイルを出力する集合文字ファイル出力ステップと、
を有することを特徴とする音声文字変換作業支援方法。
(付記9)
複数の作業者が使用する作業者端末と通信接続されたコンピュータに、
音声を録音して生成した、音声ファイルを取得する音声ファイル取得手順と、
前記音声ファイルを構成する音声データが示す音声を認識して、前記音声データの分割位置を決定する分割位置決定手順と、
前記分割位置によって分割された分割音声データを文字データに変換する作業を割り当てる作業者を特定する作業者特定手順と、
前記作業者特定手順で特定された作業者が使用する前記作業者端末に対して、前記音声ファイル又は前記分割音声データからなる分割音声ファイルを送信する音声ファイル送信手順と、
前記音声ファイル送信手順で送信された前記音声ファイルのうち前記作業者特定手順で特定された作業者に割り当てられた分割音声データ、又は、前記分割音声ファイルの分割音声データを、前記音声ファイル又は前記分割音声ファイルを受信した前記作業者端末を使用する作業者が文字データに変換して生成した文字ファイルであって、前記作業者端末から送信された前記文字ファイルを受信する文字ファイル受信手順と、
前記文字ファイル受信手順で受信した文字ファイルを結合して集合文字ファイルを生成する集合文字ファイル生成手順と、
前記集合文字ファイル生成手順で取得した集合文字ファイルを出力する集合文字ファイル出力手順と、
を実行させるためのプログラム。
1 音声文字変換システム
10 音声文字変換作業支援装置
110 マイク
120 音声信号処理部
130 記憶部
131 音声ファイル
132 集合文管理表
133、173、183 作業者管理表
134 文字ファイル
140 表示部
150 通信部
160 制御部
161 音声ファイル取得部
162 音声認識部
163 分割音声ファイル生成部
164 音声ファイル出力部
165 作業者特定部
166 文字ファイル取得部
167 文字ファイル結合部
20 ネットワーク
30 作業者端末

Claims (9)

  1. 音声を録音して生成した、音声ファイルを取得する音声ファイル取得手段と、
    前記音声ファイルを構成する音声データが示す音声を認識して、前記音声データの分割位置を決定する分割位置決定手段と、
    前記分割位置によって分割された分割音声データを文字データに変換する作業を割り当てる作業者を特定する作業者特定手段と、
    前記作業者特定手段で特定された作業者が使用する作業者端末に対して、前記音声ファイル又は前記分割音声データからなる分割音声ファイルを送信する音声ファイル送信手段と、
    前記音声ファイル送信手段で送信された前記音声ファイルのうち前記作業者特定手段で特定された作業者に割り当てられた分割音声データ、又は、前記分割音声ファイルの分割音声データを、前記音声ファイル又は前記分割音声ファイルを受信した前記作業者端末を使用する作業者が文字データに変換して生成した文字ファイルであって、前記作業者端末から送信された前記文字ファイルを受信する文字ファイル受信手段と、
    前記文字ファイル受信手段で受信した文字ファイルを結合して集合文字ファイルを生成する集合文字ファイル生成手段と、
    前記集合文字ファイル生成手段で取得した集合文字ファイルを出力する集合文字ファイル出力手段と、
    を有することを特徴とする音声文字変換作業支援装置。
  2. 前記音声ファイル取得手段で取得する前記音声ファイルは、音声を録音している時の時刻情報を含んでおり、
    前記分割位置決定手段で決定した前記分割位置は、前記時刻情報で示されている、
    ことを特徴とする請求項1に記載の音声文字変換作業支援装置。
  3. 前記分割位置決定手段は、前記音声ファイルの音声を認識して、文章の文頭又は文末を検出し、前記文頭の前又は文末後を前記分割位置として決定する、
    ことを特徴とする請求項1又は2に記載の音声文字変換作業支援装置。
  4. 予め登録している前記作業者各々に対して、前記作業者に前記音声データを文字データに変換する作業を割り当てているか否かを示す現在の作業者の情報を記憶する記憶部をさらに有し、
    前記作業者特定手段は、前記記憶部に記憶されている現在の作業者の情報に基づいて、現在、前記音声データを文字データに変換する作業を割り当てていない前記作業者を特定する、
    ことを特徴とする請求項1乃至3のいずれか1項に記載の音声文字変換作業支援装置。
  5. 前記記憶部には、前記作業者各々に対して、前記作業者が処理した、前記音声データを文字データに変換する作業の数を示す累積処理数も記憶しており、
    前記作業者特定手段は、前記累積処理数の少ない前記作業者を特定する、
    ことを特徴とする請求項4に記載の音声文字変換作業支援装置。
  6. 前記記憶部には、前記作業者各々に対して、前記作業者の前記音声データを文字データに変換する作業の処理能力レベルを示す情報も記憶しており、
    前記作業者特定手段は、前記処理能力レベルを示す情報を含む情報に基づいて、前記作業者を特定する、
    ことを特徴とする請求項4又は5に記載の音声文字変換作業支援装置。
  7. 受信した音声ファイルの音声データを文字データに変換して生成した文字ファイルを送信する複数の作業者端末と、前記作業者端末と通信接続された音声文字変換作業支援装置と、から構成される音声文字変換システムであって、
    前記音声文字変換作業支援装置は、
    音声を録音して生成した、音声ファイルを取得する音声ファイル取得手段と、
    前記音声ファイルを構成する音声データが示す音声を認識して、前記音声データの分割位置を決定する分割位置決定手段と、
    前記分割位置によって分割された分割音声データを文字データに変換する作業を割り当てる作業者を特定する作業者特定手段と、
    前記作業者特定手段で特定された作業者が使用する作業者端末に対して、前記音声ファイル又は前記分割音声データからなる分割音声ファイルを送信する音声ファイル送信手段と、
    前記音声ファイル送信手段で送信された前記音声ファイルのうち前記作業者特定手段で特定された作業者に割り当てられた分割音声データ、又は、前記分割音声ファイルの分割音声データを、前記音声ファイル又は前記分割音声ファイルを受信した前記作業者端末を使用する作業者が文字データに変換して生成した文字ファイルであって、前記作業者端末から送信された前記文字ファイルを受信する文字ファイル受信手段と、
    前記文字ファイル受信手段で受信した文字ファイルを結合して集合文字ファイルを生成する集合文字ファイル生成手段と、
    前記集合文字ファイル生成手段で取得した集合文字ファイルを出力する集合文字ファイル出力手段と、を備えた、
    ことを特徴とする音声文字変換システム。
  8. 音声を録音して生成した、音声ファイルを取得する音声ファイル取得ステップと、
    前記音声ファイルを構成する音声データが示す音声を認識して、前記音声データの分割位置を決定する分割位置決定ステップと、
    前記分割位置によって分割された分割音声データを文字データに変換する作業を割り当てる作業者を特定する作業者特定ステップと、
    前記作業者特定ステップで特定された作業者が使用する作業者端末に対して、前記音声ファイル又は前記分割音声データからなる分割音声ファイルを送信する音声ファイル送信ステップと、
    前記音声ファイル又は前記分割音声ファイルを受信した前記作業者端末を使用する作業者が、前記音声ファイル送信手段で送信された前記音声ファイルのうち前記作業者特定手段で特定された作業者に割り当てられた分割音声データ、又は、前記分割音声ファイルの分割音声データを、文字データに変換して文字ファイルを生成する文字ファイル生成ステップと、
    前記作業者が生成して前記作業者端末から送信された文字ファイルを受信する文字ファイル受信ステップと、
    前記文字ファイル受信ステップで受信した文字ファイルを結合して集合文字ファイルを生成する集合文字ファイル生成ステップと、
    前記集合文字ファイル生成ステップで取得した集合文字ファイルを出力する集合文字ファイル出力ステップと、
    を有することを特徴とする音声文字変換作業支援方法。
  9. 複数の作業者が使用する作業者端末と通信接続されたコンピュータに、
    音声を録音して生成した、音声ファイルを取得する音声ファイル取得手順と、
    前記音声ファイルを構成する音声データが示す音声を認識して、前記音声データの分割位置を決定する分割位置決定手順と、
    前記分割位置によって分割された分割音声データを文字データに変換する作業を割り当てる作業者を特定する作業者特定手順と、
    前記作業者特定手順で特定された作業者が使用する前記作業者端末に対して、前記音声ファイル又は前記分割音声データからなる分割音声ファイルを送信する音声ファイル送信手順と、
    前記音声ファイル送信手順で送信された前記音声ファイルのうち前記作業者特定手順で特定された作業者に割り当てられた分割音声データ、又は、前記分割音声ファイルの分割音声データを、前記音声ファイル又は前記分割音声ファイルを受信した前記作業者端末を使用する作業者が文字データに変換して生成した文字ファイルであって、前記作業者端末から送信された前記文字ファイルを受信する文字ファイル受信手順と、
    前記文字ファイル受信手順で受信した文字ファイルを結合して集合文字ファイルを生成する集合文字ファイル生成手順と、
    前記集合文字ファイル生成手順で取得した集合文字ファイルを出力する集合文字ファイル出力手順と、
    を実行させるためのプログラム。
JP2012044783A 2012-02-29 2012-02-29 音声文字変換作業支援装置、音声文字変換システム、音声文字変換作業支援方法及びプログラム Active JP5892598B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012044783A JP5892598B2 (ja) 2012-02-29 2012-02-29 音声文字変換作業支援装置、音声文字変換システム、音声文字変換作業支援方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012044783A JP5892598B2 (ja) 2012-02-29 2012-02-29 音声文字変換作業支援装置、音声文字変換システム、音声文字変換作業支援方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2013182353A true JP2013182353A (ja) 2013-09-12
JP5892598B2 JP5892598B2 (ja) 2016-03-23

Family

ID=49272967

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012044783A Active JP5892598B2 (ja) 2012-02-29 2012-02-29 音声文字変換作業支援装置、音声文字変換システム、音声文字変換作業支援方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5892598B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014148190A1 (ja) * 2013-03-19 2014-09-25 Necソリューションイノベータ株式会社 要約筆記支援システム、情報配信装置、端末装置、要約筆記支援方法、及びコンピュータ読み取り可能な記録媒体
JP2015185090A (ja) * 2014-03-26 2015-10-22 Necソリューションイノベータ株式会社 作業交代支援サーバ、作業交代支援方法およびプログラム、並びに、割当時間決定サーバ、割当時間決定方法およびプログラム
KR20200114824A (ko) * 2019-03-29 2020-10-07 아이피랩 주식회사 음성파일이 연동된 텍스트 링크 생성 어플리케이션 및 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002140243A (ja) * 2000-10-31 2002-05-17 Arcadia:Kk ネットワークシステム、処理管理装置
JP2008107624A (ja) * 2006-10-26 2008-05-08 Kddi Corp 文字起こしシステム
JP2009282897A (ja) * 2008-05-26 2009-12-03 Mitsubishi Electric Corp 作業割当方法および作業割当装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002140243A (ja) * 2000-10-31 2002-05-17 Arcadia:Kk ネットワークシステム、処理管理装置
JP2008107624A (ja) * 2006-10-26 2008-05-08 Kddi Corp 文字起こしシステム
JP2009282897A (ja) * 2008-05-26 2009-12-03 Mitsubishi Electric Corp 作業割当方法および作業割当装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014148190A1 (ja) * 2013-03-19 2014-09-25 Necソリューションイノベータ株式会社 要約筆記支援システム、情報配信装置、端末装置、要約筆記支援方法、及びコンピュータ読み取り可能な記録媒体
US9697851B2 (en) 2013-03-19 2017-07-04 Nec Solution Innovators, Ltd. Note-taking assistance system, information delivery device, terminal, note-taking assistance method, and computer-readable recording medium
JP2015185090A (ja) * 2014-03-26 2015-10-22 Necソリューションイノベータ株式会社 作業交代支援サーバ、作業交代支援方法およびプログラム、並びに、割当時間決定サーバ、割当時間決定方法およびプログラム
KR20200114824A (ko) * 2019-03-29 2020-10-07 아이피랩 주식회사 음성파일이 연동된 텍스트 링크 생성 어플리케이션 및 방법
KR102274275B1 (ko) * 2019-03-29 2021-07-08 아이피랩 주식회사 음성파일이 연동된 텍스트 링크 생성 어플리케이션 및 방법

Also Published As

Publication number Publication date
JP5892598B2 (ja) 2016-03-23

Similar Documents

Publication Publication Date Title
US11037553B2 (en) Learning-type interactive device
US9070369B2 (en) Real time generation of audio content summaries
US11049493B2 (en) Spoken dialog device, spoken dialog method, and recording medium
US11797772B2 (en) Word lattice augmentation for automatic speech recognition
JP6233798B2 (ja) データを変換する装置及び方法
US20130253932A1 (en) Conversation supporting device, conversation supporting method and conversation supporting program
TW201923736A (zh) 語音識別方法、裝置及系統
JPWO2019031268A1 (ja) 情報処理装置、及び情報処理方法
JPWO2014136534A1 (ja) 理解支援システム、理解支援サーバ、理解支援方法、及びプログラム
JP2016062357A (ja) 音声翻訳装置、方法およびプログラム
JP2011504624A (ja) 自動同時通訳システム
EP2682931B1 (en) Method and apparatus for recording and playing user voice in mobile terminal
JP2013025299A (ja) 書き起こし支援システムおよび書き起こし支援方法
JP5892598B2 (ja) 音声文字変換作業支援装置、音声文字変換システム、音声文字変換作業支援方法及びプログラム
US9697851B2 (en) Note-taking assistance system, information delivery device, terminal, note-taking assistance method, and computer-readable recording medium
JP2003162293A (ja) 音声認識装置及び方法
JP5713782B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP6639431B2 (ja) 用件判定装置、要約文表示装置、用件判定方法、要約文表示方法、及びプログラム
JP7414078B2 (ja) 変換テーブル生成装置、音声対話システム、変換テーブル生成方法、およびコンピュータプログラム
JP2004334207A (ja) 日本語および中国語音声認識システムのトレーニングのための動的な発音の補助
JP5791124B2 (ja) 要約筆記支援システム、要約筆記支援装置、要約筆記支援方法、及びプログラム
KR20190091265A (ko) 정보 처리 장치, 정보 처리 방법, 및 정보 처리 시스템
JP5184071B2 (ja) 書き起こしテキスト作成支援装置、書き起こしテキスト作成支援プログラム、及び書き起こしテキスト作成支援方法
WO2019142447A1 (ja) 情報処理装置および情報処理方法
JP2019109424A (ja) 計算機、言語解析方法、及びプログラム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20140616

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141112

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150819

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150825

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151023

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160218

R150 Certificate of patent or registration of utility model

Ref document number: 5892598

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150