JP5128869B2

JP5128869B2 - 通訳支援システム、通訳支援プログラム、通訳支援方法

Info

Publication number: JP5128869B2
Application number: JP2007204306A
Authority: JP
Inventors: 洋一時岡
Original assignee: 株式会社ストレートワード
Priority date: 2007-08-06
Filing date: 2007-08-06
Publication date: 2013-01-23
Anticipated expiration: 2027-08-06
Also published as: WO2009019872A1; JP2009042291A

Description

本発明は、第一言語による原発話を聴いてそれを第二言語に通訳する通訳者を支援するためのシステム及びそのシステムに用いられるプログラムに関する。また、本発明は通訳者を支援するための方法に関する。

社会のグローバル化の進展に伴い、近年ますます通訳の需要とその必要性が高まってきている。特に、従来一般的であった会議や商談、放送などに加え、医療、法廷、スポーツなどをはじめとする多様な分野において通訳の必要性が生じていることから、通訳者の育成が急務とされている。

通訳には、観点の違いにより幾つかの分類方法が存在するが、主要なものとしては以下に挙げる３つの方式が存在しており、状況や必要によって使い分けられている。

「逐次通訳」…話者と通訳者が交互に発話する。話者が話をしている間は通訳者はその話を記憶したりメモしたりし、話者が話を区切った時点で一度にその訳出を行う。後述する同時通訳と比較すると、時間が掛かるというデメリットがある一方、正確性が増したりニュアンスを伝えやすかったりするというメリットがある。

「同時通訳」…通訳者は話者の話を聴きつつ、話者の話とほぼ並行して訳出を行う。通常、通訳者は発話者や聴き手の居る会場からは離れた場所に設置されている、ブースと呼ばれる部屋に入り、そこで話者の声をヘッドホンを通して聴きながら通訳を行う。通訳者の声は通訳者の口元に設けられたマイクを通して会場に居る聴き手に送信される。会議などでよく採用される方式である。

「ウイスパリング通訳」…上記の同時通訳と同様に、話者の発話と並行して訳出を行う。ただし、通訳者はブースに入るのではなく聴き手の付近に位置し、聴き手に対して小声でささやくように通訳を行う。話者と聴き手の役割がある程度固定化されてしまう同時通訳と比較すると会話の自由度が高く、聴き手が発言することも可能となるが、マイクを使用しないために聴き手の人数が限られる。同時通訳とは違って機器を用いないため、通訳者自らの声や他の雑音が障害となって、正確な通訳を行うのは非常に困難であるとされている。

鳥飼玖美子,"現代通詞考第1５回通訳の今・昔(2/2)",[online],2002年12月7日,「通訳・翻訳ジャーナル連載記事アーカイブ」,[平成19年5月30日検索],インターネット<URL:http://wwwsoc.nii.ac.jp/jais/html/tu_hon_journal/html/15_torikai2.html> JILPT,"職業データベース「通訳者」",[online],[平成19年5月30日検索],インターネット<URL:http://db.jil.go.jp/cgi-bin/jhk01?smode=dtldsp&detail=G111>

以上に挙げた３種類の通訳方式のうち、世界的に最も需要が高いのは同時通訳である。そこで、質の高い同時通訳を行うことができる通訳者を育成することは、極めて急務であるといえる。しかし従来、我が国において通訳は学問の対象と見なされていなかった等の理由のため詳細に研究されてきてはおらず、通訳者の育成方法が体系的に確立されてきていなかった。こういった事情ゆえに、通訳者としての能力を高めるためには現場において先輩の技を見ながら覚えて行かざるを得ないのが実情である（例えば非特許文献１を参照）。このような教育の現状があることに加え、もとより同時通訳には非常に高度な能力が要求されるため、質の高い通訳者の人数は当然、非常に少ない。日本語・英語間の通訳だけを考えた場合、実際に日本において第一線で活躍しているのは僅か１００人程度と見積もられている（非特許文献２参照）。

また、同時通訳は通訳者に非常に大きな負担を強いる。そのため、話者の原発話が比較的長時間に亘る場合には、数人の通訳者を準備しておき、例えば15分毎に交替しつつ途切れることなく通訳を行うのが一般的である。これは通訳者を雇う立場からすると、全通訳者に対して賃金を払う必要があるため、非常に大きな人件費が発生するという問題がある。

本願発明者は上に述べたような同時通訳の現状に鑑み鋭意研究を重ねた結果、従来のように通訳者の通訳能力だけに頼るのではなく、通訳者がより同時通訳を行いやすくなるように通訳者の能力を支援することにより、本問題を解決することに着目した。

本願発明者が十分な調査を行ったところ、同時通訳の難易度を高めているのは通訳者が訳出思考及びその発話行為を行い、同時に自分の発声を聞きながら（自分の骨を伝って聞こえてしまう）話者の話を聴かなければならないという点、即ち四つの事柄を同時にしなければならないという点にあり、結果として聞き落としや訳の質の低下が招かれているということがわかった。
そこで、本願発明者はこの特徴点、すなわち通訳者が発声している間は話者の音声が聞こえにくくなってしまうという点を解消することによって通訳者の能力を支援し、通訳の質を高めることに想到した。

以上のような経緯でなされた本発明に係る通訳支援システムは、話者の第一言語による原発話を音声出力部を通して聴き、それを第二言語にてマイクに対して発話する通訳者を支援するための通訳支援システムであって、
話者の原発話を録音原発話として連続的に録音する録音部と、
話者の原発話又は前記録音原発話の音声を所定の区切り条件で以て発話単位に分け、前記原発話又は録音原発話に該発話単位を関連付ける単位設定部と、
前記マイクに入力される通訳者の発話を検知した時点において前記音声出力部から出力されている原発話又は録音原発話の発話単位を特定する再生位置特定部と、
前記マイクに入力される通訳者の発話を検知したことに基づき、前記音声出力部から出力される原発話又は録音原発話の音量を減少させる又は出力を遮断する音量調節部と、
前記マイクに入力される通訳者の発話の完了を検知したことに基づき、前記再生位置特定部によって特定された発話単位の先頭から録音原発話を前記音声出力部より出力させる巻戻再生部と、
話者の原発話又は前記録音原発話に含まれる所定の長さ以上の無音区間を検出し、該無音区間を所定の長さに短縮する無音区間短縮部と、
を備えることを特徴としている。

また、本発明に係る通訳支援プログラムは、上記のような通訳支援システムに用いられる通訳支援プログラムであって、コンピュータを、
話者の原発話を録音原発話として連続的に録音する録音部と、
話者の原発話又は前記録音原発話の音声を所定の区切り条件で以て発話単位に分け、前記原発話又は録音原発話に該発話単位を関連付ける単位設定部と、
前記マイクに入力される通訳者の発話を検知した時点において前記音声出力部から出力されている原発話又は録音原発話の発話単位を特定する再生位置特定部と、
前記マイクに入力される通訳者の発話を検知したことに基づき、前記音声出力部から出力される原発話又は録音原発話の音量を減少させる又は出力を遮断する音量調節部と、
前記マイクに入力される通訳者の発話の完了を検知したことに基づき、前記再生位置特定部によって特定された発話単位の先頭から録音原発話を前記音声出力部より出力させる巻戻再生部と、
話者の原発話又は前記録音原発話に含まれる所定の長さ以上の無音区間を検出し、該無音区間を所定の長さに短縮する無音区間短縮部と、
して機能させることを特徴としている。

本発明に係る通訳支援方法は、話者の第一言語による原発話を音声出力部を通して聴き、それを第二言語にてマイクに対して発話する通訳者を支援するための通訳支援方法であって、
話者の原発話を録音原発話として連続的に録音し、
話者の原発話又は前記録音原発話の音声を所定の区切り条件で以て発話単位に分けて前記原発話又は録音原発話に該発話単位を関連付け、
前記マイクに入力される通訳者の発話を検知した時点において前記音声出力部から出力されている原発話又は録音原発話の発話単位を特定するとともに前記音声出力部から出力される原発話又は録音原発話の音量を減少させる又は出力を遮断し、
前記マイクに入力される通訳者の発話の完了を検知したことに基づき、前記特定された発話単位の先頭から録音原発話を前記音声出力部より出力させ、
話者の原発話又は前記録音原発話に含まれる所定の長さ以上の無音区間を検出し、該無音区間を所定の長さに短縮することを特徴としている。

なお、本発明に係る通訳支援システム、通訳支援プログラム、通訳支援方法においては、話者の第一言語及び通訳者の第二言語は互いに異なった言語である必要はない。即ち、本発明において通訳とは、話者の発話を聴いた通訳者がそれを基に何らかの発話を行う、あらゆる形態の作業を含んだ概念である。従って例えば、話者が方言を話し、通訳者がそれを同一言語の標準語に言い換えるような場面においても、本発明の通訳支援システム等は好適に利用が可能である。

本発明に係る通訳支援システム、また本発明に係る通訳支援方法によれば、通訳者が発話を開始すると、音声出力部から出力される話者の原発話の音量が減少する、又は遮断される。従って、通訳者は訳出をしながら原発話を聴く必要が無くなり、自分の通訳に一層集中することができるようになる。
通訳者の発話が終了すると、先ほど通訳者が発話を開始した時点において再生されていた原発話が、所定の区切り箇所まで戻って再生される。すなわち、通訳者が未だ訳出を行っていない箇所から原発話の再生が行われる。よって通訳者は途切れることなく連続的に通訳を行うことが可能となる。

しかし、このままでは通訳者が原発話を聴きながら訳出を行っているわけではないため、当然、止まることなく進行する話者の実際の原発話に対して通訳者の発話が遅れてしまうという問題が生じる。そこで本発明に係る通訳支援システム及び通訳支援方法では、原発話に含まれる所定の長さ以上の無音区間を検出し、その無音区間を短縮することによって遅れの挽回を行う。よって、通訳者は遅れを気にすることなく訳出に専念すればよいため、より質の高い訳出を行うことができる。他方、聴き手は違和感なく通訳者の発話を聴くことができる。

また、本発明に係る通訳支援システム及び通訳支援方法は、第一言語で行われる話者の発話を聴きながら第二言語への訳出を行うという、非常に大きな負荷がかかる作業から通訳者を解放するため、一人の通訳者が長時間に亘って連続的に通訳を行うことが可能となる。これにより、従来では一人の話者につき複数人の交替用の通訳者を雇わねばならなかったのに対して通訳者が一人で済むので、通訳者を雇う側にとっては大幅なコスト削減が実現される。加えて、本発明の通訳支援システムを利用することにより、同時通訳を行うことができる通訳者の数が現状のように限られたものではなくなるので、サービスの費用を低廉にできるというメリットもある。

よって、これまで費用高を理由に同時通訳の導入を諦めていた各種団体・企業群が同時通訳の採用に積極的になり、顧客層が拡大し市場が活性化するばかりでなく、グローバルな現場でのコミュニケーションが円滑に行われるようになり、ひいては世界の政治経済に好影響を与えることも期待される。

これまで、通訳者を目指す者は、原発話が行われる第一言語に関する高い言語能力を高めると同時に、習得が難しいとされる同時通訳の能力を身につける必要があった。しかし、本発明に係る通訳支援システム及び通訳支援方法によって、後者の、同時通訳の能力の習得作業が著しく簡略化される。従って、話者の言語に関する高い能力を持ちながらも同時通訳を行うことが出来なかった者や、言語能力を高めるために語学学習を行いつつ同時通訳の能力を習得するという二重の壁のために同時通訳に敷居の高さを感じていたり、なかなか実用レベルにまで到達出来なかったりした学習者が、非常に短期間で質の高い同時通訳を行うことが出来るようになる。

以下、本発明に係る通訳支援システムについて、図面を参照しつつ詳細な説明を行う。図１は本発明に係る通訳支援システムの一実施形態を模式的に示した図である。
本発明に係る通訳支援システムは、第一言語で行われる話者の原発話を通訳者が聴き、通訳者はその原発話を第二言語に通訳し、その通訳された第二言語を聴き手が聴くという通訳形態において用いられるものである。
なお、同時通訳を行う場合、通訳者は通訳作業に集中できるようにするために話者や聴き手がいる部屋とは異なる部屋（ブース）にいることが多い。本発明の通訳支援システムも同様の環境で使用することが好適であるものの、その使用環境は特に限定されるものではない。

本発明に係る通訳支援システム１は、原発話保存部１０、録音部１１、単位設定部１２、無音区間短縮部１３、再生位置特定部１４、音量調節部１５、巻戻再生部１６を備えているほか、話者マイク２を介して話者の原発話を入力するための第一入力部１７、通訳者が装着するヘッドホンなどの音声出力部３に対して音声を出力する出力部１８、及び通訳者の発話を入力するための第二入力部１９を備える。
なお、話者や通訳者の発話である音波はマイクによって電気信号などに変換され、また、この電気信号はヘッドホンなどの音声出力部において音波に変換される。従って、本発明に係る通訳支援システムは実際には音波に基づく電気信号を扱うが、本出願においてはこの音波に基づく電気信号のことも発話や音声として説明する。

まず、話者は話者マイク２に向かって発話（これを原発話と呼ぶ）を行う。いま、原発話及び発話単位（後述）の例である図２に示すように、話者が英語で"I just called to say I love you and I mean it from the bottom of my heart"と発話したものとする。この原発話は第一入力部１７を介して通訳支援システム１の録音部１１に入力されてゆく。録音部１１は入力された原発話を連続的に原発話保存部１０に記録する。本発明においては原発話保存部１０に保存された原発話のことを録音原発話と呼ぶ。ただし、本出願では、録音原発話と原発話とを区別する必要が特にない場合には話者の発話を原発話と表記する。

単位設定部１２は、原発話保存部１０に保存されている録音原発話の音声を所定の区切り条件で以て発話単位に分ける。この区切り条件は、原発話中に含まれる無音区間（所定の強度以下の音を無音とすればよい）とするのがよい。特に、従来より発話単位を決定する際に採用されている、200ミリ秒以上の無音区間を区切り条件とすることができる。
本実施形態では、200ミリ秒以上の無音区間が区切り条件として設定されているものとする。

単位設定部１２は、この録音原発話において"called"と"to"の間に800ミリ秒、"say"と"I"の間に1000ミリ秒、"you"と"and"の間に500ミリ秒、"it"と"from"の間に300ミリ秒の無音区間が存在していることを検出する。そして、録音原発話をこの区切り条件で以て発話単位に分ける。本実施形態の原発話の場合、発話単位は以下のように分けられる。
発話単位<1>：I just called
発話単位<2>：to say
発話単位<3>：I love you
発話単位<4>：and I mean it
発話単位<5>：from the bottom of my heart
なお、区切り条件として検出された無音区間は、どのように扱ってもよく、各発話単位の最後の単語の後に含めておくこともできるし、各発話単位の最初の単語の前に含めておいてもよい。

単位設定部１２は、原発話保存部１０に保存されている録音原発話に対してその発話単位の情報を付与する（録音原発話に発話単位を関連付ける）。ここで、発話単位を関連付けるとは、録音原発話に含まれる各発話単位を識別可能に管理するという意味である。

単位設定部１２は原発話保存部１０に既に保存されている録音原発話を対象にするのではなく、第一入力部１７を介して入力される話者の原発話を対象にして発話単位に分け、その原発話に発話単位を関連付けるようにしても構わない。そしてその後、原発話は録音部１１を介して原発話保存部１０に保存されるようにすればよい。

次に、無音区間短縮部１３は原発話保存部１０に保存されている録音原発話に含まれている、予め定められた長さ以上の無音区間を検出し、その無音区間を予め定められた長さに短縮する。
この短縮の方法は、例えば800ミリ秒以上の長さの無音区間であれば一律に800ミリ秒にしたり、長さが800ミリ秒を越える無音区間については1/5の長さに短縮したりという様に、任意に設定が可能である。
また、単位設定部１２の場合と同様に、無音区間短縮部１３は原発話保存部１０に既に保存されている録音原発話を対象にして処理を行うのではなく、第一入力部１７を介して入力された話者の原発話を対象にして処理を行ってもよい。

また、無音区間短縮部１３は、所定の長さ以上の無音区間の短縮の程度を現時点での通訳者の訳出の進行度合いと比較しつつ変動させても構わない。例えば、音声出力部３から現在出力されている録音原発話の箇所に基づいて、原発話保存部１０に保存されていて未だ音声出力部３から出力されていない録音原発話の長さを残り時間として算出し（このとき、好ましくは録音原発話に含まれる無音区間以外の箇所、つまり実際に話者が発話を行った箇所のみを対象として残り時間を算出するのがよい）、その残り時間の長さの程度に応じて、無音区間の長さの短縮の程度を変えることができる。この場合、無音区間短縮部１３は録音原発話が音声出力部３から出力される直前にその録音原発話に対する処理を行えばよい。
これによって、実際の話者の原発話の進行に対して通訳者の訳出が大きく遅れてしまうことが防止されるとともに、過度に原発話の無音区間が削除されてしまってそれを聴く通訳者が違和感を覚えてしまうことも防止される。

他方、話者の音声は、録音部１１、単位設定部１２、及び無音区間短縮部１３によって上記の処理が行われているのと並行して出力部１８より出力され、通訳者の音声出力部３（通常はヘッドホンであるが、スピーカーでも構わない）から出力される。
本発明に係る通訳支援システムにおいて音声出力部３から出力される話者の音声は、（後述するように）通常は原発話保存部１０に保存されている録音原発話である。しかし、原発話保存部１０に保存されている録音原発話が全て音声出力部３から出力されてしまった場合や話者が最初に発話する場合などには、話者マイク２より第一入力部１７を介して入力された原発話を二つに分け、一方は録音部１１に送り、他方はそのまま音声出力部３から出力するようにしてもよい。ただしこの場合は、単位設定部１２及び無音区間短縮部１３による各処理を経た後に原発話が音声出力部３より出力されることが望ましい。

本発明に係る通訳支援システムにおいて音声出力部３から出力される音声と、通訳者が通訳者マイク４へ向かって行う発話とのタイミングの関係を、図３を参照しつつ説明する。なお、図３の上段に示すように、話者の原発話は連続的に原発話保存部１０に保存されてゆく。

いま、通訳者が音声出力部３より"I just called"という原発話を聴いた直後に、「私が電話をしたのはただ」と、通訳者マイク４に向かって訳出したとする。この通訳者の発話は通訳者マイク４から第二入力部１９を介して通訳支援システム１の再生位置特定部１４に入力される。同時に、通訳者マイク４から出力される通訳者の発話は聴き手５にも送信される。よって、聴き手５は「私が電話をしたのはただ」という通訳者の発話を聴く。

再生位置特定部１４は、通訳者の発話（「私が…」の「わ」の発話）を検知した時点（このタイミングをｔ１とする）において、音声出力部３から（つまり出力部１８から）出力されている原発話の発話単位を特定する。タイミングｔ１において音声出力部３から出力されている原発話は"say"の箇所であったとすると、再生位置特定部１４は"say"が含まれている発話単位<2>が、通訳者マイク４に入力される通訳者の発話を検知した時点において音声出力部３から出力されている原発話の発話単位である旨を特定する。

一方、音量調節部１５は、タイミングｔ１において通訳者の発話を検知すると、音声出力部３から出力される原発話の音量を減少させる。若しくは、原発話の出力を遮断してもよい。これによって通訳者は、訳出を行っている間は原発話が殆ど又は全く聞こえなくなる。また、音量調節部１５は、通訳者マイク４に入力された通訳者自身の音声を音声出力部３から出力させてもよい。こうすることにより、通訳者は自分自身の音声を確認しながら訳出を行うことができるようになる。ただ、原発話が少し聞こえるようにするのか、それとも全く聞こえないようにするのかは、通訳者の嗜好に合わせて任意に変更可能にしておくことが望ましい。

通訳者は「私が電話をしたのはただ」と発話すると、そこで休止を入れる。すると巻戻再生部１６は通訳者マイク４に入力される通訳者の発話が完了したことを検知し、原発話保存部１０に保存されている録音原発話を、再生位置特定部１４がタイミングｔ１において特定した発話単位である発話単位<2>の先頭から音声出力部３より出力させる。即ち、"to"以降を音声出力部３より出力させる（タイミングｔ２）。

巻戻再生部１６が通訳者の発話の完了を検知するための条件はどのようなものでも構わないが、例えば所定の時間連続した無音区間を検出したときとすればよい。また、通訳者が手などで操作できる訳出完了指示入力部を設けておき、通訳者自身がその訳出完了指示入力部から発話が完了した旨を入力するようにしてもよい。この場合、巻戻再生部１６はこの入力を以て通訳者の発話の完了を検知する。

次に通訳者は音声出力部３より出力される"to say"を聴いて、「言いたかったのです」と発話したとする。すると、再生位置特定部１４は、通訳者マイク４を介して入力されたこの発話の開始を検知し、そのタイミング（タイミングｔ３）において音声出力部３から出力されている録音原発話が"love"の箇所であることを特定し、その"love"が含まれている発話単位が<3>である旨を特定する。

音量調節部１５は、上記タイミングｔ１における処理と同様に、タイミングｔ３において通訳者の発話を検知すると、音声出力部３から出力されている録音原発話の音量を減少させる、又は録音原発話の出力を遮断する。

また、巻戻再生部１６は通訳者マイク４に入力される通訳者の発話が「です」を以て完了したことを検知し、原発話保存部１０に保存されている録音原発話を発話単位<3>から、即ち"I love"以降を音声出力部３より出力させる（タイミングｔ４）。

以上のようにして本発明に係る通訳支援システム１を用いることにより、通訳者は（録音）原発話を聴く→訳出を行う→全体を聴いていない発話単位の先頭から録音原発話を聴く→訳出を行う→…という順序で通訳を行うことができる。つまり、通訳者は発話を行いながら話者の原発話を聴く必要が無い。

いま述べたように本発明に係る通訳支援システム１を利用して通訳を行う場合、話者の原発話を聴きながら同時に訳出を行う従来の同時通訳とは異なり、原発話を聴くことと訳出を行うこととが交互に行われる。従って、実際の話者の原発話の進行に対して通訳者の訳出が遅れてしまう。しかし、一般的に言って、話の途中には数秒間程度に亘る比較的長い休止が入るものである。本発明に係る通訳支援システム１では上述したように無音区間短縮部１３がこういった長い休止を検出してその長さを短縮するから、話者による原発話の進行に対して通訳者による訳出の進行が大きく遅れてしまうことが無い。

特に話者が長い休止を取った場合など、話者による原発話の進行に通訳者の訳出が追い着き、通訳者が原発話保存部１０に保存されている録音原発話の内容を全て訳出してしまうこともあり得る。このような場合、本発明の通訳支援システム１は話者マイク２より第一入力部１７へ原発話が入力されるまで待機し、原発話が入力されると再度上記と同様の処理を行う。

以下、本発明に係る通訳支援システム１の幾つかの変形例について説明する。

[変形例１：再聴可能]
本発明に係る通訳支援システム１は、
再聴指示を入力することが可能な再聴指示入力部と、
該再聴指示が入力されたことに基づき、該再聴指示が入力された時点において前記音声出力部から出力されていた原発話又は録音原発話の箇所を基点として、所定の長さだけ又は所定の箇所まで遡った箇所から録音原発話を前記音声出力部から出力させる再聴部と、
を更に備えた構成とすることもできる。

通常、通訳者が話者の原発話の内容を聞き逃すことは好ましくなく、また、十分に能力があって経験を積んだ通訳者であればそのような事態はあまり生じない。しかしながら、数字や固有名詞といったある種の語句は記憶しにくく、場合によっては聞き落としてしまう（または忘れてしまう）ことがあり得る。従来はこの問題を回避するために、通訳者の側にアシスタントを設け、原発話に数字や固有名詞が現れた場合にはアシスタントがそれらの語句をメモとして書き取り、そのメモを通訳者に見せることがあった。

本変形例では、通訳者が操作するためのボタン等から成る再聴指示入力部を設けておく（図示せず）。通訳者がこのボタンを押下することによって再聴指示が入力される。

図４を参照しつつ、本変形例の動作について説明する。図４は、音声出力部３から出力される原発話又は録音原発話と、再聴指示の入力との関係を示す図である。まず、通訳者が音声出力部３から出力される話者の原発話又は録音原発話を、"I just called to say"の箇所まで聴いたとき、最後の"say"を聞き落としたとする。そこで通訳者が再聴指示入力部を押下すると、再聴指示が再聴部に送信される。再聴指示を受けた再聴部は、この再聴指示が入力された際、音声出力部３より出力されていた原発話又は録音原発話が発話単位<3>の箇所であることを特定し、これより一つ前の発話単位である発話単位<2>の先頭、すなわち"to"から録音原発話を再生する（音声出力部３より出力させる）。

なお、上記の例では、再聴部は、再聴指示が入力された時点において音声出力部３より出力されていた原発話又は録音原発話の発話単位の一つ前の発話単位の先頭に遡って録音原発話を再生したが、発話単位とは関係なく所定の秒数だけ遡った箇所から録音原発話を再生するなど、遡る程度は任意に設定可能としておくのが好ましい。

本発明に係る通訳支援システム１が上述したような再聴部を備えることにより、通訳者に安心感を与えることができ、通訳者は一層訳出に専念できる。また、通訳者の側に控えているアシスタントが不要となるから、特に通訳者を雇う側にとっては人件費の削減となる。

[変形例２：原発話の可視表示]
本発明に係る通訳支援システム１は、通訳者がより一層的確な通訳を行うことができるように援助するために、更に、原発話可視表示部を設けることもできる。図５は、原発話可視表示部２０に示される画面表示の例である。原発話可視表示部２０は、原発話保存部１０に保存されている録音原発話の音声を波形として表示する。そして、通訳者に現在どの波形に対応する録音原発話が音声出力部３より出力されているのかを知らせるために、原発話可視表示部２０は、波形を一方向にスクロールさせるとともに、現在音声出力部３より出力されている箇所を示すようにする。図５の例では、録音原発話の波形が左側方向にスクロールして行く。そして、「出力中」として示されているラインに対応する箇所が音声出力部３より出力されている箇所である旨が示される。
また、原発話可視表示部２０は、録音原発話の音声を図５に示すような実際の波形ではなく、図６に示すような波形に対応した模式的な図形を表示するようにしても構わない。
このように原発話可視表示部２０を設けることによって、通訳者は今から後に聴くことになる原発話（実際には録音原発話）がどのようなものなのか、発話単位の長さや強度、無音区間の長さなどを通訳を行いつつ容易に知ることができる。従って、訳出するタイミング等を図りやすくなると同時に、これから聴く原発話を予測し、計画的かつ直感的に訳出戦略を練ることができる。
プロの同時通訳者が日頃行う訓練における最重要ポイントはアンティシペーション（原発話の内容の予測）技術の上達だと言われている。このことより、本システムが現在プロとして活躍している同時通訳者に対する支援システムとしても有効であることが理解される。

[変形例３：指定再聴]
上述した変形例２の更なる変形例して、本発明に係る通訳支援システム１は、更に、
原発話可視表示部によって表示されている音声の波形又は模式的な図形の指定位置を含む再聴箇所指示を入力することが可能な指定再聴指示入力部と、
再聴箇所指示が入力された事に基づき、その再聴箇所指示に含まれている指定位置に対応する箇所から録音原発話を音声出力部より出力させる指定再聴部と、を備えた構成とすることもできる。

図７は、指定再聴部を備える通訳支援システム１の原発話可視表示部２０の表示例である。
通訳者は指定再聴指示入力部（図示しないが、通常はマウスやタッチパネルなどを好適に利用できる）を操作することにより、原発話可視表示部２０に表示されている音声の波形又は模式的な図形を指定（この情報を「指定位置」とする）して再聴箇所指示を入力する。この再聴箇所指示は、通訳者が波形又は模式的な図形を指定しただけで入力されるようにしておくことが望ましい。
指定再聴部は、入力された再聴箇所指示に含まれる指定位置の波形又は模式的な図形に対応する箇所から、原発話保存部１０に保存されている録音原発話を音声出力部３より出力させる。「入力された再聴箇所指示に含まれる指定位置の波形又は模式的な図形に対応する箇所から出力」とは、指定位置を含む発話単位の先頭からという意味であっても良いし、指定位置そのものからという意味であっても良い。

図７に示す例では、原発話可視表示部２０においてマウスポインタが表示されている。通訳者は指定再聴指示入力部（ここではマウスとする）を適宜に操作することにより原発話可視表示部２０上でマウスポインタを移動させて所望の波形を選択し、マウスをクリックする。この操作によって再聴箇所指示が入力され、指定再聴部は原発話保存部１０に保存されている録音原発話を、選択された波形に対応する箇所から音声出力部３より出力させる。よって通訳者は一旦出力された原発話（録音原発話）を希望する箇所から再度聴くことができる。
指定再聴部が上記の処理を行うことにより、音声出力部３より出力される録音原発話の箇所は遡ることになるが、通常はそのまま引き続き録音原発話を音声出力部３から出力させるとよい。

ところで、話者の音声に基づきそれを文字データ化する、いわゆる音声認識技術を本発明の通訳支援システム１と組み合わせることも可能である。この場合は、原発話可視表示部によって表示される波形又は模式的な図形に対応した箇所に、音声認識の結果取得されるテキストを表示すればよい。
しかし、現在では音声認識技術は未だ開発途上にある技術であり、通訳支援に利用可能な程度の精度が保証されるようになるには、更なる発展を待たねばならない。しかしながら、現在の技術でも数字や固有名詞に関しては比較的高い精度で音声認識が可能である。これらの数字や固有名詞（これらをまとめて特徴語と呼ぶ）は、先に述べたように、通訳者が一般に聞き逃しやすい種類の単語であるため、これらの特徴語だけでもテキスト化することができれば、通訳者の負担が大幅に軽減される。

[変形例４：特徴語表示]
そこで、原発話可視表示部を備えた形態の本発明に係る通訳支援システム１は、好適には、
原発話又は録音原発話中に含まれる数字及び／又は固有名詞を検出する特徴語検出部と、
原発話可視表示部によって表示される波形又は図形において、特徴語検出部によって検出された数字又は固有名詞に対応する位置に、該数字又は固有名詞をテキスト化して表示する特徴語表示部と、を更に備えた構成とすることができる。

本変形例４の処理を、原発話可視表示部２０の表示画面例である図８を参照しつつ説明する。
特徴語検出部（図示せず）は、原発話又は録音原発話中に含まれる特徴語を検出し、それをテキスト化する。図８に示す例では、録音原発話中に"2007"という特徴語（数字）が含まれることを検出したものとする。そして特徴語表示部（図示せず）は、原発話可視表示部２０に表示されている波形の、この"2007"に対応する位置に「2007」というテキストを表示する。図８における波形は、録音原発話が音声出力部３より出力されることに伴って徐々にスクロールするから、特徴語表示部はテキスト「2007」もそれに合わせて移動させる。

これにより通訳者は、これから聴くことになる録音原発話中に「2007」という数字が含まれていることを予期しつつ訳出作業を行うことが可能となる。

また、本発明の通訳支援システム１は、上記変形例４の構成に替えて、
録音原発話中に含まれる数字及び／又は固有名詞を検出する特徴語検出部と、
原発話可視表示部によって表示される波形又は模式的な図形において、該特徴語検出部によって検出された数字又は固有名詞に対応する位置に、該数字又は固有名詞の存在を示す特徴語指示子を表示し、前記入力部によって指定された特徴語指示子に対応する数字又は固有名詞を前記音声出力部から出力する特徴語再生部を設けた構成とすることもできる。

図９に、この場合の原発話可視表示部２０の表示画面例を示す。本実施形態の場合、特徴語検出部（図示せず）が特徴語を検出した場合、特徴語再生部はその特徴語が存在している旨を、原発話可視表示部２０に表示されている波形又は模式的な図形の対応箇所に表示させる。図９では、正方形の特徴語指示子が対応する波形の一部に関連付けて表示されている。通訳者が入力部（マウスなど）を適宜操作してこの特徴語指示子をクリックすると、特徴語再生部はその特徴語を音声出力部３から出力させる。
特徴語再生部が特徴語を音声出力部３から出力させる場合には、その特徴語だけを再生するのが好ましいが、その特徴語を含む発話単位全体を再生するようにしてもよい。
また、特徴語再生部が音声出力部３から特徴語を出力させる場合には、その時点で音声出力部３から出力されている録音原発話の出力を停止させ、特徴語の出力が完了すると、先程停止した時点で出力されていた録音原発話の発話単位の先頭から再生を開始するとよい。又は、特徴語を出力したあと、そのまま続けて録音原発話を再生してもよい。

これにより、通訳者は、これから聴くことになる原発話に特徴語が含まれている旨を目で見て確認することができるうえ、その特徴語を聞き落としてしまったり忘れたりしてしまった場合には、確実に、そして素早くその特徴語を聴き直すことが可能となる。

また、前記特徴語検出部が音声認識を行った結果、特徴語の存在は検出できたもののテキスト化には失敗したような場合に、特徴語再生部がテキストの代わりに特徴語指示子を表示させるようにすることもできる。

[変形例５：言語断片要素検出]
また、発話においては、直接的な訳出の対象とはならないが発話における意味と関連し合う現象（音声や音声の変化）が生じることが知られており、例えば以下に挙げるものがある。
「フィラー（“えーと”等もっぱら自分自身の発話において自分自身の発話の調子を整える目的で発する言語要素）」、「相づち（“はい、はい”等もっぱら相手の発話に対応して発する対話や会話を潤滑にする言語要素）」、「口ぐせ（“ほんま、ほんま”等もっぱら自分自身の発話に対応して発し、無意味に繰り返され、かつ個人的特徴のある言語要素）」、「笑いながらの発話」、「発話後の笑い」、「相手の発話に応ずる笑い」、「ため息」、「抑揚の変化」、「対話や会話における相手の発話中に介入する発話」、「言い掛けて途中でやめた言葉の断片」、「極端に早口で喋られるある種の語句群」、「個人的な話の発声スピードやその変化」
本出願ではこういった、直接的には訳出の対象とはならないが発話内容と深い関係があるとされる音声や音声の変化を「言語断片要素」と称する。

そこで、本発明に係る通訳支援システムの他の実施例では、図１０に示すように、原発話や録音原発話中に含まれる言語断片要素を検出する断片要素検出部２１を設けることができる。断片要素検出部２１には、どのような音声信号や信号の変化を言語断片要素として検出するかが種類別に定義された言語断片要素定義テーブルが含まれていても良いし、言語断片要素定義テーブルを断片要素検出部２１とは別個に設けても良い。

そして、断片要素検出部によって検出された言語断片要素を用いることにより、次のような応用が可能となる。
（１）原発話可視表示部２０が、断片要素検出部２１によって検出された言語断片要素に対応する波形又は模式的な図形を一律に又は言語断片要素の種類に応じて識別可能表示するようにする。
なお、図１０では原発話可視表示部２０が通訳支援システム１の外部に設けられたモニタ（表示部）を指しているが、原発話可視表示部２０は通常、通訳支援システム１内部の機能とモニタとが協働することによって実現する構成である。

（２）更に予め定められた種類の言語断片要素に対応する箇所を削除する不要箇所削除部２２を設け、断片要素検出部２１によって検出された言語断片要素のうち、訳出不要として予め指定されている種類の要素の音声を原発話又は前記録音原発話から削除する。なお、ここで削除とは、音声出力を零にするという意味であっても良いし、削除した後に短縮するという意味であってもよい。後者の場合、例えば１０秒間の録音原発話中、１秒間の該当する言語断片要素を削除したとすると、録音原発話の長さは９秒間となる。
この構成により、通訳者はより一層訳出を行いやすくなる。

（３）断片要素検出部２１によって検出された言語断片要素のうち、予め設定された種類の言語断片要素を、前記単位設定部１２が原発話保存部１０に保存されている録音原発話の音声を発話単位に分けるうえでの区切り条件として用いる。これによって、発話単位をより的確に設定することが可能となる。

[実験例]
従来の同時通訳には、第一線で活躍しているプロの同時通訳者であっても避けることができない、以下に挙げるような特徴的な欠点があることが知られている。
１）訳語を一回で完全に訳出できず、訳し直してしまう
２）原語には無いつなぎ言葉のような「…それは…つまり…」などの表現を訳出発話に入れてしまう
３）原語の語順で訳してしまうため、英語と日本語のように、語順が大きく違う言語間の同時通訳では、訳出発話が聴き手に不自然に受け取られてしまう
上記１）及び２）は同時通訳において訳出時間の遅延の原因となり、できる限り原発話と同時に訳出を終えるという目的に反するものであり、上記３）は元来同時通訳に不可避的に付随する欠点とされている。

本願発明者は、本発明に係る通訳支援システムによって上記問題が改善されることを示す次のような実験を行った。
まず、母語が英語である話者の発話音声を録音した。これを「実験音源Ｉ」とする。次に、「実験音源Ｉ」を手動で本発明に係る通訳支援システムの単位設定部が実行するような発話単位に区切った。これを「実験音源ＩＩ」とする。
経験が豊かな同時通訳者を通訳者Ａとし、通訳者Ａと較べて経験が浅く、通訳のレベルも劣る同時通訳者を通訳者Ｂとしたとき、通訳者Ａに実験音源Ｉを聴かせて、これに対する同時通訳発話音声を録音した。これを「ＡＴ」とする。通訳者Ｂには実験音源ＩＩを聴かせて、これに対する同時通訳発話音声を録音した。これを「ＢＴ」とする。

結果として、ＡＴと比較してＢＴの方が１）や２）の問題が生じることが少なかった。
さらに、上記ＡＴ及びＢＴを50人程度のモニターに、これらが英語の通訳音声であることを告げずに聴かせたところ、大部分のモニターが「ＢＴの音声の方が自然な喋り方であると感じる」と回答した。
以上の結果から、本発明に係る通訳支援システムを利用することにより、上記１）〜３）の全ての問題が改善されることが確認された。

以上、本発明に係る通訳支援システムについて説明を行ったが、これらは例に過ぎないことは明らかであって、本発明の精神内において自由に改良や変更を行っても構わない。

例えば、上記の説明では通訳者マイク４から通訳者の発話が入力された場合、再生位置特定部１４及び音量調節部１５は個別に通訳者の発話を検知するとしたが、再生位置特定部１４が通訳者の発話を検知したことに基づき、音量調節部１５が音声出力部３から出力される原発話の音量を調節してもよいし、逆に音量調節部１５が通訳者の発話を検知し、その検知に基づいて再生位置特定部１４が処理を開始してもよい。また、通訳者の発話を検知し、それを再生位置特定部１４及び音量調節部１５に対して知らせる通訳者発話検知部を別途設けても構わない。

また、上記では話者の原発話は原発話保存部１０内に連続的に一つのトラックに保存されて行くかのように説明したが、原発話（録音原発話）の保存形態はどのようなものであっても構わない。例えば必要に応じて、並行して録音を行うために複数のトラックを用いることもできる。
このように、本発明の通訳支援システムは種々の変形や改良が可能である。

本発明に係る通訳支援システムは、専用に設計・開発された機器であってもよいし、コンピュータ上で本発明に係る通訳支援プログラムを実行することによって具現化されるシステムであってもよい。また、従来より存在している通訳システムの一部に本発明に係る通訳支援システムを組み込む利用形態も考えられる。

本発明に係る通訳支援システムは話者の話す第一言語、及び通訳者が訳出する第二言語に全く依存することがない。従って、英語、日本語に限らず、あらゆる形態の通訳に利用することができる。さらに、講演者の原発話を一方的に聴者に通訳して聞かせる「独話通訳」以外にも、例えば日本語話者と英語話者の間の「バイリンガル対話通訳」、３ヶ国語以上の話者が一同に会した場合の「マルチリンガル会話通訳」など、話者が聴き手にもなり、聴き手が話者にもなるような場合にもこのシステムは利用できる。

本発明に係る通訳支援システムは利用場面も多岐に亘り、国際会議や商談、放送といった、同時通訳が必要とされるありとあらゆる場面において好適に利用することができる。

また、本発明に係る通訳支援システムを利用したサービスも多数考えられる。一例として、携帯電話などを利用して不特定の対話者を顧客とし、話者と通話可能な数百名の同時通訳者を配備したコールセンターのような設備をトランスレーションセンターとして設置しておく。そして、通訳を必要とする２人以上の話者がトランスレーションセンターに電話をし、同時通訳者が両者の会話を、本発明に係る通訳支援システムを利用して通訳すればよい。これによって、一つの携帯電話をその二人の間で交互に喋った後に相手に渡してその通訳を「逐次」行わねばならない煩わしさから解放される。

本発明に係る通訳支援システムを利用して、通訳者を志す人を対象として同時通訳の訓練を行うことも勿論可能である。

本発明に係る通訳支援システムの一実施形態を模式的に示した図。原発話及び発話単位の例を示す図。本発明に係る通訳支援システムにおける原発話、音声出力部からの出力、及び通訳者マイクへの入力のタイミングの関係を示す図。音声出力部から出力される原発話又は録音原発話と、再聴指示の入力との関係を示す図。本発明に係る通訳支援システムの一変形例において原発話可視表示部に示される画面表示の例。本発明に係る通訳支援システムの他の変形例において原発話可視表示部に示される画面表示の例。本発明に係る通訳支援システムの更に他の変形例において原発話可視表示部に示される画面表示の例。本発明に係る通訳支援システムの更に他の変形例において原発話可視表示部に示される画面表示の例。本発明に係る通訳支援システムの更に他の変形例において原発話可視表示部に示される画面表示の例。本発明に係る通訳支援システムの他の実施形態を模式的に示した図。

符号の説明

１…通訳支援システム
１０…原発話保存部
１１…録音部
１２…単位設定部
１３…無音区間短縮部
１４…再生位置特定部
１５…音量調節部
１６…巻戻再生部
１７…第一入力部
１８…出力部
１９…第二入力部
２０…原発話可視表示部
２１…断片要素検出部
２２…不要箇所削除部
２…話者マイク
３…音声出力部
４…通訳者マイク

Claims

話者の第一言語による原発話を音声出力部を通して聴き、それを第二言語にてマイクに対して発話する通訳者を支援するための通訳支援システムであって、
話者の原発話を録音原発話として連続的に録音する録音部と、
話者の原発話又は前記録音原発話の音声を所定の区切り条件で以て発話単位に分け、前記原発話又は録音原発話に該発話単位を関連付ける単位設定部と、
前記マイクに入力される通訳者の発話を検知した時点において前記音声出力部から出力されている原発話又は録音原発話の発話単位を特定する再生位置特定部と、
前記マイクに入力される通訳者の発話を検知したことに基づき、前記音声出力部から出力される原発話又は録音原発話の音量を減少させる又は出力を遮断する音量調節部と、
前記マイクに入力される通訳者の発話の完了を検知したことに基づき、前記再生位置特定部によって特定された発話単位の先頭から録音原発話を前記音声出力部より出力させる巻戻再生部と、
話者の原発話又は前記録音原発話に含まれる所定の長さ以上の無音区間を検出し、該無音区間を所定の長さに短縮する無音区間短縮部と、
を備えることを特徴とする通訳支援システム。
前記単位設定部が録音原発話の音声を発話単位に分ける所定の区切り条件が、200ミリ秒以上の無音区間である
ことを特徴とする請求項１に記載の通訳支援システム。
前記音量調節部が、前記マイクに入力される通訳者自身の音声を前記音声出力部から出力させる
ことを特徴とする請求項１又は２に記載の通訳支援システム。
再聴指示を入力することが可能な再聴指示入力部と、
該再聴指示が入力されたことに基づき、該再聴指示が入力された時点において前記音声出力部から出力されていた原発話又は録音原発話の箇所を基点として、所定の長さだけ又は所定の箇所まで遡った箇所から録音原発話を前記音声出力部から出力させる再聴部と、
を更に備えることを特徴とする請求項１〜３のいずれかに記載の通訳支援システム。
前記録音原発話の音声の波形を、又は前記録音原発話の音声に対応した模式的な図形を、音声出力部から現在出力されている音声の位置を示しつつ表示する原発話可視表示部
を更に備えることを特徴とする請求項１〜４のいずれかに記載の通訳支援システム。
前記原発話可視表示部によって表示されている音声の波形又は模式的な図形の指定位置を含む再聴箇所指示を入力することが可能な指定再聴指示入力部と、
該再聴箇所指示が入力された事に基づき、該再聴箇所指示に含まれる該指定位置に対応する箇所から録音原発話を前記音声出力部より出力させる指定再聴部と、
を更に備えることを特徴とする請求項５に記載の通訳支援システム。
原発話又は録音原発話中に含まれる数字及び／又は固有名詞を検出する特徴語検出部と、
前記原発話可視表示部によって表示される波形又は模式的な図形において、該特徴語検出部によって検出された数字又は固有名詞に対応する位置に、該数字又は固有名詞をテキスト化して表示する特徴語表示部と、
を更に含むことを特徴とする請求項５又は６に記載の通訳支援システム。
通訳者からの指示が入力される入力部と、
前記録音原発話中に含まれる数字及び／又は固有名詞を検出する特徴語検出部と、
前記原発話可視表示部によって表示される波形又は模式的な図形において、該特徴語検出部によって検出された数字又は固有名詞に対応する位置に、該数字又は固有名詞の存在を示す特徴語指示子を表示し、前記入力部によって指定された特徴語指示子に対応する数字又は固有名詞を前記音声出力部から出力する特徴語再生部と、
を更に含むことを特徴とする請求項５又は６に記載の通訳支援システム。
原発話又は録音原発話中に含まれる、直接的には訳出の対象とならない言語断片要素を検出する断片要素検出部を更に備え、
前記原発話可視表示部が、該断片要素検出部によって検出された該言語断片要素に対応する波形又は模式的な図形を一律に又は言語断片要素の種類に応じて識別可能表示する
ことを特徴とする請求項５〜８のいずれかに記載の通訳支援システム。
原発話又は録音原発話中に含まれる、直接的には訳出の対象とならない言語断片要素を検出する断片要素検出部と、
原発話又は前記録音原発話において、前記断片要素検出部によって検出された言語断片要素のうち、予め定められた種類の言語断片要素に対応する箇所を削除する不要箇所削除部と、
を更に備えることを特徴とする請求項１〜３のいずれかに記載の通訳支援システム。
原発話又は録音原発話中に含まれる、直接的には訳出の対象とならない言語断片要素を検出する断片要素検出部を更に備え、
前記単位設定部が、予め定められた種類の言語断片要素を録音原発話の音声を発話単位に分ける所定の区切り条件とする
ことを特徴とする請求項１〜３のいずれかに記載の通訳支援システム。
話者の第一言語による原発話を音声出力部を通して聴き、それを第二言語にてマイクに対して発話する通訳者を支援するための通訳支援システムに用いられる通訳支援プログラムであって、コンピュータを、
話者の原発話を録音原発話として連続的に録音する録音部と、
話者の原発話又は前記録音原発話の音声を所定の区切り条件で以て発話単位に分け、前記原発話又は録音原発話に該発話単位を関連付ける単位設定部と、
前記マイクに入力される通訳者の発話を検知した時点において前記音声出力部から出力されている原発話又は録音原発話の発話単位を特定する再生位置特定部と、
前記マイクに入力される通訳者の発話を検知したことに基づき、前記音声出力部から出力される原発話又は録音原発話の音量を減少させる又は出力を遮断する音量調節部と、
前記マイクに入力される通訳者の発話の完了を検知したことに基づき、前記再生位置特定部によって特定された発話単位の先頭から録音原発話を前記音声出力部より出力させる巻戻再生部と、
話者の原発話又は前記録音原発話に含まれる所定の長さ以上の無音区間を検出し、該無音区間を所定の長さに短縮する無音区間短縮部と、
して機能させることを特徴とする通訳支援プログラム。
前記単位設定部が録音原発話の音声を発話単位に分ける所定の区切り条件が、200ミリ秒以上の無音区間である
ことを特徴とする請求項１２に記載の通訳支援プログラム。
前記音量調節部が、前記マイクに入力される通訳者自身の音声を前記音声出力部から出力させる
ことを特徴とする請求項１２又は１３に記載の通訳支援プログラム。
話者の第一言語による原発話を音声出力部を通して聴き、それを第二言語にてマイクに対して発話する通訳者を支援するための通訳支援方法であって、
話者の原発話を録音原発話として連続的に録音し、
話者の原発話又は前記録音原発話の音声を所定の区切り条件で以て発話単位に分けて前記原発話又は録音原発話に該発話単位を関連付け、
前記マイクに入力される通訳者の発話を検知した時点において前記音声出力部から出力されている原発話又は録音原発話の発話単位を特定するとともに前記音声出力部から出力される原発話又は録音原発話の音量を減少させる又は出力を遮断し、
前記マイクに入力される通訳者の発話の完了を検知したことに基づき、前記特定された発話単位の先頭から録音原発話を前記音声出力部より出力させ、
話者の原発話又は前記録音原発話に含まれる所定の長さ以上の無音区間を検出し、該無音区間を所定の長さに短縮する
ことを特徴とする通訳支援方法。
録音原発話の音声を発話単位に分ける所定の区切り条件が、200ミリ秒以上の無音区間である
ことを特徴とする請求項１５に記載の通訳支援方法。