JP2005123869A

JP2005123869A - 通話内容書き起こしシステムおよび通話内容書き起こし方法

Info

Publication number: JP2005123869A
Application number: JP2003356385A
Authority: JP
Inventors: Takeshi Moriwaki; 健森脇; Hiroatsu Fujii; 博厚藤井
Original assignee: Advanced Media Inc
Current assignee: Advanced Media Inc
Priority date: 2003-10-16
Filing date: 2003-10-16
Publication date: 2005-05-12

Abstract

【課題】本発明は、送受話器を介して送受信された通話内容を送話側と受話側とに分けることにより、音声認識結果の確認および修正が容易である通話内容書き起こしシステムおよび通話内容書き起こし方法に関するものである。
【解決手段】送話側チャネルからの音声は、第１音声認識手段によって音声が認識される。他方、少なくとも一つの交換機を介して送られて来た受話側チャネルの音声は、前記第１音声認識手段と異なる第２音声認識手段によって認識される。前記それぞれの音声認識手段によって認識された音声は、文字列変換手段によって文字列となり、表示手段に表示される。前記表示手段によって表示された文字列は、文字列編集手段によって編集される。編集者は、前記表示手段に送話側および受話側の通話内容を時系列に並べて表示されるのを見ながら、通話内容を書き起こすことが容易にできる。
【選択図】図１

Description

本発明は、送受話器を介して送受信された通話内容を送話側と受話側とに分けることにより、音声認識結果の確認および修正が容易である通話内容書き起こしシステムおよび通話内容書き起こし方法に関するものである。本発明は、送話側および受話側の一方の通話内容が比較的想定できる際に、他方の通話内容の書き起こしが容易である通話内容書き起こしシステムおよび通話内容書き起こし方法に関するものである。

図３は本出願人が提案した従来例としての議事録を書き起こすシステムを説明するための概略ブロック構成図である。図３において、会議室３１には、発言者（会議参加者）の数だけマイクロホン１、マイクロホン２、・・・、マイクロホンｍが設置されている。そして、前記各マイクロホンには、コンピュータ３２の音声入力端子に接続できるコンピュータ入力端子３１４が接続されている。

コンピュータ３２には、前記コンピュータ入力端子３１４に接続されている入力選択部３２１と、前記入力選択部３２１によって選択された音声を認識できる音声認識処理部(1) ３２２、音声認識処理部(2) ３２３、・・・、音声認識処理部(n) ３２４と、音声をそのまま保存する音声保存部３２５と、前記各音声認識処理部(1) ないし(n) で認識した文字列を保存する文字列保存部３２６と、前記音声保存部３２５によって保存された音声を出力するスピーカー出力部３２７と、前記文字列保存部３２６によって保存された文字列を表示する表示部３２８と、スピーカー出力部３２７の出力、および／または表示部３２８に表示された文字列を編集する文字列編集部３２９と、編集された文字列３３０とから構成されている。

前記従来例における議事録を書き起こすシステムは、「会議の出席者数＝マイクロホン数ｍ≧音声認識処理部ｎ」という関係にある。そして、前記音声認識処理部(1) ないし（n)は、発言者の音声信号が一定レベルを超えたものを採用し、一定レベル以下のものを無視する。また、前記音声認識処理部(1) ないし（n)は、前記優先順位にしたがい、発言者の１ないしｍの中のｎ個を同時に選択することができる。

前記表示部３２８は、図示されていない、編集領域と、音声パターン表示部と、会議情報表示部とから構成されている。前記編集領域には、会議情報表示部の一部を選択することによって、音声認識処理部によって認識された認識結果が表示される。

図３を参照して会議における発言者の音声認識に基づく文字列の編集について説明する。会議は、ｍ人が参加しており、それぞれにマイクロホン１、２、・・・ｍが備えられている。前記各マイクロホンには、コンピュータ入力端子３１４が設けられており、コンピュータ３２の端子（図示されていない）に接続されている。

今、二人の発言者は、同時に、マイクロホン１とマイクロホン２を通して発言したとする。入力選択部３２１は、マイクロホン１およびマイクロホン２の出力を同時に選択して、マイクロホン１の出力を音声認識処理部(1) ３２２に、マイクロホン２の出力を音声認識処理部(2) ３２３に割り当てる。

前記音声認識処理部(1) ３２２および音声認識処理部(2) ３２３によって認識された音声は、音声保存部３２５にそれぞれ保存される。前記音声認識処理部(1) ３２２および音声認識処理部(2) ３２３によって認識された文字列は、文字列保存部３２６にそれぞれ保存される。

前記音声保存部３２５および文字列保存部３２６に保存された音声および文字列は、編集する際にコンピュータ３２の表示部３２８における編集領域に表示される。

前記文字列保存部３２６に保存されていた認識結果は、内容が判らない場合、編集者は、図示されていない音声パターン表示部またはその近傍のボタンをクリックすることにより、音声保存部３２５に保存されていた音声出力がコンピュータ３２のスピーカー出力部３２７から音声信号が出力される。

また、図示されていない、発言者表示部、時間表示部、認識結果表示部、および編集結果表示部のいずれかを選択した際に、自動的に音声出力することもできる。前記編集者は、前記音声信号を聞きながら、前記文字列を容易に書き起こすことができる。
特願２００３−１０６５６７

前記従来例の議事録を書き起こすシステムは、会議の内容に合わせた基礎データを用いて音声認識手段の識別率を確保する必要がある。そこで、本出願人は、前記特許文献１に記載されているように、音声も保存させておき、認識できない場合に前記録音された音声を基にして、書き起こしを容易にしていた。

前記会議の議事録ではなく、電話における通話内容の書き起こしは、二人の発声が重畳して含まれたり、あるいは電話特有の雑音が入るため、音声認識が不十分であったり、録音を何回も聞き返したりして行っていた。したがって、電話における通話内容の書き起こしは、非常に困難であった。

本出願人は、電話における通話内容であっても、予め通話内容が想定できる分野に適用することで、当該分野に適した音声認識手段を使用することで、通話内容の書き起こしが容易にできることに着目した。

たとえば、電話における通話内容には、商品の注文、クレームの受付等がある。前記商品の注文およびクレームの受付は、記録を保存して置かないと、後で問題を起こすことがしばしばある。本発明は、前記のような問題があった場合の証拠となる通話内容を作成する通話内容書き起こしシステムおよび通話内容書き起こし方法を提供することを目的とする。

前記注文あるいはクレーム等の受付は、送話者と受話者によって使用する言葉がほぼ決められるため、送話者と受話者によってパラメタの異なる、あるいはパラメタの同じ別の音声認識手段を使用した通話内容書き起こしシステムおよび通話内容書き起こし方法を提供することを目的とする。

（第１発明）
第１発明の通話内容書き起こしシステムは、送受話器を介して送受信された通話内容を文字列として編集することができるものであり、送話側チャネルの音声を認識する第１音声認識手段と、受話側チャネルの音声を認識する第２音声認識手段と、前記それぞれの音声認識手段によって得られた文字列を並べて表示する表示手段と、前記表示手段に表示された文字を編集する文字列編集手段と、を少なくとも備えていることを特徴とする。

（第２発明）
第２発明の通話内容書き起こしシステムは、送受話器を介して送受信された通話内容を文字列として編集することができるものであり、送話側チャネルおよび／または受話側チャネルの音声を録音する録音手段と、前記録音手段によって録音された送話側チャネルの音声を認識する第１音声認識手段と、前記録音手段によって録音された受話側チャネルの音声を認識する第２音声認識手段と、前記それぞれの音声認識手段によって得られた文字列を並べて表示する表示手段と、前記表示手段に表示された文字を編集する文字列編集手段と、を少なくとも備えていることを特徴とする。

（第３発明）
第３発明の通話内容書き起こしシステムにおいて、第１音声認識手段および第２音声認識手段は、それぞれ異なった音響および／または言語についての基礎データに基づいて音声認識を行うことを特徴とする。

（第４発明）
第４発明の通話内容書き起こし方法は、送受話器を介して送受信された通話内容を文字列として編集することができるものであり、送話側チャネルの音声および受話側チャネルの音声を認識し、前記認識されたそれぞれの音声を文字列に変換し、その後、前記文字列を表示手段に表示し、前記表示手段に表示された文字列を文字列編集手段と制御装置によって編集することを特徴とする。

（第５発明）
第５発明の通話内容書き起こし方法は、送話側チャネルの音声および受話側チャネルの音声を録音手段によって録音した後に、前記録音を基にして、それぞれのチャネルを音声認識することを特徴とする。

（第６発明）
第６発明の通話内容書き起こし方法は、送話側チャネルの音声および受話側チャネルの音声は、それぞれ異なった音響および／または言語についての基礎データに基づいて音声認識を行うことを特徴とする。

本発明によれば、送話側チャネルと受話側チャネルとをパラメタの異なる、あるいはパラメタが同じ別の音声認識手段を使用することで、送話者および受話者が頻繁に使用する言葉を認識し易いようにしたため、電話の通話内容を容易かつ正確に書き起こすことができる。

本発明によれば、送話側チャネルと受話側チャネルの通話内容を録音手段によって録音した後、前記録音手段に録音された音声をそれぞれの音声認識手段を使用することで、送話者および受話者の通話内容を容易かつ正確に書き起こすことができる。

本発明によれば、送話側チャネルと受話側チャネルにおいて、送話者および受話者が頻繁に使用する言葉を認識し易い音響および／または言語が格納されている基礎データに基づいて音声認識を行えるようにしたため、互いの声が重畳されることがなく、電話の通話内容を短時間で正確に書き起こすことができる。

本発明によれば、送話側チャネルと受話側チャネルをパラメタの異なる、あるいはパラメタが同じ別の音声認識手段を使用することで、電話回線から発生するノイズに起因する影響が異なり、両者の通話内容によって、推測が容易であり、電話の通話内容を容易に書き起こすことができる。

本発明によれば、送話側チャネルと受話側チャネルを別々の音声認識手段を使用することで、送話側および受話側の立場の違いによる発声の言語的内容が異なるため、一方が正確に認識できれば、他方も正確に推測ができ、正確かつ容易に電話の通話内容を書き起こすことができる。

本発明によれば、送話側チャネルと受話側チャネルを別々の音声認識手段を使用することで、送話者と受話者との音声認識結果を時系列的に並べて表示することができるため、音声認識結果の認識および修正を容易にすることができる。

（第１発明）
第１発明の通話内容書き起こしシステムは、送受話器を介して送受信された通話内容を文字列として編集することができるものである。送話側チャネルからの音声は、第１音声認識手段によって音声が認識される。他方、少なくとも一つの交換機を介して送られて来た受話側チャネルの音声は、前記第１音声認識手段とパラメタの異なるもの、あるいはパラメタが同じで別の第２音声認識手段によって認識される。また、第１発明は、二人の音声が重畳されるようなことがあっても、送話チャネルと受話チャネルとの音声を別の音声認識手段によって認識するため、二人の音声を容易に認識することができる。

前記それぞれの音声認識手段によって認識された音声は、文字列変換手段によって文字列となり、表示手段に並列に表示される。前記表示手段によって並列に表示された文字列は、文字列編集手段（たとえば、キーボード等の入力手段、ワードプロセッサー用ソフトウエアを含むコンピュータ等）によって編集される。編集者は、前記表示手段に送話側および受話側の通話内容を時系列（発声開始時点順）に並べて（たとえば、二段に表示）表示されるのを見ながら、通話内容を書き起こすことが容易にできる。

本発明の通話内容は、有線、無線、インターネット、コンピュータ、携帯電話機等、送る手段あるいは通信手段に関係なく、送受話器を介して送受信されるものであれば良い。すなわち、本発明は、送信側チャネルと受信側チャネルが区別できる送受話器があれば良く、それぞれのチャネルにパラさメタの異なる、あるいは同じパラメタの別の音声認識手段を接続した点に新規性および進歩性がある。

本発明は、送話側チャネルと受話側チャネルとの音声をそれぞれパラメタの異なる、あるいは同じパラメタの別の音声認識手段によって認識するため、二人の音声が同時に発声されたとしても、それぞれが重畳されることなく、明瞭に認識でき、文字列として書き起こすことができる。また、本発明は、送話者と受話者との立場の相違による言語的内容（注文側と受注側では、敬語や言葉遣いの相違）に注目し易いので、書き起こしが容易にできる。

たとえば、商品の注文に応用した場合、商品の発注者は、不特定多数の者であるが、商品の受注者は、予め商品名を熟知しているとともに、接客に対する会話を訓練した特定の者である。本発明は、不特定多数の者と訓練を受けた特定の者とがパラメタの異なる音声認識手段を備えるようにし、受注者側の音声認識が正確にできるため、発注者側の音声が不明瞭であっても、受注者側の音声から推測がし易く、容易かつ正確な通話内容の書き起こしが可能となる。

（第２発明）
第２発明の通話内容書き起こしシステムは、送話側チャネルおよび／または受話側チャネルの音声を録音する録音手段が設けられている点で、第１発明と異なっている。すなわち、第２発明は、送話側チャネルおよび／または受話側チャネルの音声を一旦録音手段によって録音した後、第１音声認識手段および／または第２音声認識手段によって音声が認識される。

第２発明の通話内容書き起こしシステムは、録音手段を設けておくことで、全ての会話を書き起こす必要がなく、必要な人の通話内容および必要な時にのみ、前記通話内容を書き起こすことができる。前記録音は、送話側あるいは受話側のみ、あるいは両方であっても良い。

（第３発明）
第３発明は、前記第１音声認識手段および第２音声認識手段が異なったパラメタを備えていることに特徴がある。すなわち、前記第１音声認識手段および第２音声認識手段は、それぞれ異なった音響および／または言語についての基礎データに基づいて音声認識を行うことができる。すなわち、第３発明は、送話側チャネルと受話側チャネルとでは、話言葉が異なる場合が多いため、それぞれに適したデータに基づいて音声認識を行っている。

（第４発明）
第４発明の通話内容書き起こし方法は、電話器を介して通話した通話内容を文字列として編集することができるものである。第４発明は、送話側チャネルの音声および受話側チャネルの音声をそれぞれ別の音声認識手段によって認識する。そして、認識されたそれぞれの音声は、文字列に変換された後、前記文字列を表示手段に表示する。

前記表示手段に表示された文字列は、文字列編集手段と制御装置によって編集される。前記文字列編集手段と制御装置は、必要により、音響・言語記憶手段に記憶された辞書を基にして、編集を行う。前記音声認識手段は、通話内容で予め決まる用語を認識し易いようにしているため、文字列編集手段と制御装置によって、容易に文字列に編集することができる。

（第５発明）
第５発明の通話内容書き起こし方法は、送話側チャネルの音声および受話側チャネルの通話内容を録音手段によって録音した後に、前記録音手段に録音された通話内容を基にして、それぞれのチャネルの音声を音声認識する。送話側および受話側の通話内容は、それぞれ別に録音されているため、送話側および受話側の音声が重畳されることなく、後になってからでも、容易に書き起こすことができる。

（第６発明）
第６発明の通話内容書き起こし方法は、前記送話側チャネルの音声および受話側チャネルの音声に対して、それぞれ異なった音響および／または言語についての基礎データに基づいて音声認識を行う。前記送話側および受話側の話者は、話方が異なっているため、同じパラメタを有する音声認識手段によって、認識する場合、認識精度が低下する。第６発明は、送話者側および受話者側にそれぞれ適したパラメタを有する音声認識手段を用いることにより、音声の認識精度を向上させている。

図１は本発明の第一実施例で、通話内容の書き起こしシステムを説明するための模式的なブロック構成図である。図１において、電話器本体ｍの通話者（着呼者）ｍは、交換機Ａおよび交換機Ｂ等、と電話器本体ｎ・・・を介して不特定多数の通話者（発呼者）ｎに接続されている。また、それぞれの電話器本体ｍおよび電話器本体ｎは、送話器（マイクロホンに相当する部分）ｍと受話器（スピーカーに相当する部分）ｍ、および、送話器ｎと受話器ｎがそれぞれ接続されている。前記送受話器ｍ、ｎは、送話者側のチャネルと受話者側のチャネルが別々に取り出すことができる。

第一実施例における通話内容書き起こしシステムにおいて、たとえば、通話者ｍの音声は、送話器ｍ、音声認識手段１、電話器本体ｍ、交換機Ａ、・・・交換機Ｂ、電話器本体ｎ、受話器ｎを介して通話者ｎに接続されている。また、通話者ｎの音声は、送話器ｎ、電話器本体ｎ、交換機Ｂ、・・・交換機Ａ、音声認識手段２、受話器ｍ、通話者ｍに接続されている。

前記音声認識手段１は、必要に応じて、予め決められたパラメタを有する音響・言語記憶手段１１が接続されている。また、前記音声認識手段１および音声認識手段２は、文字列表示手段１２にそれぞれの認識した音声が文字列となって並べて表示される。

通話者ｍおよび通話者ｎの通話内容を書き起こす編集者は、前記文字列表示手段１２を見ながら文字列編集手段１３によって編集を行い、その後、文字列記憶手段１４に記憶される。たとえば、前記文字列表示手段１２は、通常のディスプレイであり、前記文字列編集手段１３は、ワードプロセッサーを備えたコンピュータである。また、前記文字列記憶手段１４は、必要に応じて、前記通話内容を文字列表示手段１２に文字列として表示することができる。

通話者ｎは、商品の苦情相談所に不良品についての相談を電話によって行ったとする。通話者ｎは、送話器ｎ、電話器本体ｎ、交換機Ｂ、・・・交換機Ａ、電話器本体ｍ、音声認識手段２、受話器ｍを介して、通話者ｍに電話相談を行うことができる。通話者ｍは、送話器ｍ、音声認識手段１、電話器本体ｍ、交換機Ａ、・・・交換機Ｂ、電話器本体ｎ、受話器ｎを介して通話者ｎの商品に対する苦情を聞く。

通話者ｍおよび通話者ｎの通話内容は、音声認識手段１および音声認識手段２によって認識されるとともに文字列となり、文字列表示手段１２に時系列として並べて表示される。通話者ｍまたは別の編集者は、前記文字列表示手段１２に表示された二人の通話内容で認識されない部分を文字列編集手段１３によって編集する。

そして、文字列記憶手段１４は、必要に応じて、前記通話内容を記憶する。前記文字列記憶手段１４に記憶された通話内容は、前記文字列表示手段１２によって、任意の時間に表示して見ることができる。また、前記通話内容が予め決められた言語である場合、制御装置１７は、前記文字列編集手段１３と協働することにより、音声認識手段１および音声認識手段２の認識結果を自動的に文字列にすることができる。

音声認識手段１には、音響・言語記憶手段１１が設けられている。すなわち、前記音響・言語記憶手段１１は、電話苦情相談を受ける通話者ｍ側の送話器ｍに接続された音声認識手段１に設けられている。通話者ｍの話し方は、音響、敬語、相談の種類によって決まる言語等がある程度限定される。前記音響・言語記憶手段１１は、前記音響や言語等をパラメタとした音声認識手段１とすることができる。

前記音響・言語記憶手段１１を備えた音声認識手段１は、通話者側の音声を正確かつ容易に認識できるため、不特定多数からなる相談者の音声も推測し易く、短時間で通話内容の書き起こしができる。

図２は本発明の第二実施例で、通話内容の書き起こしシステムを説明するための模式的なブロック構成図である。本発明の第二実施例は、通話者ｍおよび通話者ｎの音声を録音する音声録音手段３、４が設けられている点で、前記第一実施例と異なっている。また、本発明の第二実施例は、音声録音手段３および音声録音手段４によって録音した音声を直ちに音声認識手段１および音声認識手段２で認識する場合と、予め録音しておき、後に音声認識手段１および音声認識手段２によって認識する場合がある。

すなわち、通話者ｍの音声は、送話器ｍによって電気信号に変換された後、音声録音手段３によって一旦録音される。また、通話者ｎの音声は、電話器本体ｍを介した後、音声録音手段４によって録音される。前記音声録音手段３、４によって録音された音声は、必要な時に再度再生することにより、前記録音を聞きながら通話内容を書き起こすことが容易にできる。

以上、本実施例を詳述したが、本発明は、前記本実施例に限定されるものではない。そして、本発明は、特許請求の範囲に記載された本発明を逸脱することがなければ、種々の設計変更を行うことが可能である。本発明の音声認識手段等ブロック構成図の具体的技術は、周知または公知の技術を使用することができるため、詳細が省略されている。

また、電話器本体ｍおよび電話器本体ｎは、必要に応じて、音声認識手段あるいは音声録音手段を付けずに通常の電話器として使用できるように、図示されていない制御装置によって、前記機能を選択するようにすることもできる。さらに、本発明の音響・言語記憶手段は、音声認識手段に設けられているパラメタであり、音声認識手段の発明ではないため、詳細が省略されている。

本発明の第一実施例で、通話内容の書き起こしシステムを説明するための模式的なブロック構成図である。（実施例１）本発明の第二実施例で、通話内容の書き起こしシステムを説明するための模式的なブロック構成図である。（実施例２）本出願人が提案した従来例としての議事録を書き起こすシステムを説明するための概略ブロック構成図である。

符号の説明

ｍ・・・電話器本体、送話器、受話器、通話者
ｎ・・・電話器本体、送話器、受話器１通話者
Ａ、Ｂ・・・交換機
１、１′、２、２′・・・音声認識手段
３、４・・・音声録音手段
１１・・・音響・言語記憶手段
１２・・・文字列表示手段
１３・・・文字列編集手段
１４・・・文字列記憶手段
１５、１５′・・・第１音響・言語記憶手段
１６、１６′・・・第２音響・言語記憶手段
１７・・・制御装置

Claims

送受話器を介して送受信された通話内容を文字列として編集することができる通話内容書き起こしシステムにおいて、
送話側チャネルの音声を認識する第１音声認識手段と、
受話側チャネルの音声を認識する第２音声認識手段と、
前記それぞれの音声認識手段によって得られた文字列を表示する表示手段と、前記表示手段に表示された文字を編集する文字列編集手段と、
を少なくとも備えていることを特徴とする通話内容書き起こしシステム。
送受話器を介して送受信された通話内容を文字列として編集することができる通話内容書き起こしシステムにおいて、
送話側チャネルおよび／または受話側チャネルの音声を録音する録音手段と、前記録音手段によって録音された送話側チャネルの音声を認識する第１音声認識手段と、
前記録音手段によって録音された受話側チャネルの音声を認識する第２音声認識手段と、
前記それぞれの音声認識手段によって得られた文字列を表示する表示手段と、前記表示手段に表示された文字を編集する文字列編集手段と、
を少なくとも備えていることを特徴とする通話内容書き起こしシステム。
前記第１音声認識手段および第２音声認識手段は、それぞれ異なった音響および／または言語についての基礎データに基づいて音声認識を行うことを特徴とする請求項１または請求項２に記載された通話内容書き起こしシステム。
送受話器を介して送受信された通話内容を文字列として編集することができる通話内容書き起こし方法において、
送話側チャネルの音声および受話側チャネルの音声を認識し、
前記認識されたそれぞれの音声を文字列に変換し、
その後、前記文字列を表示手段に表示し、
前記表示手段に表示された文字列を文字列編集手段と制御装置によって編集することを特徴とする通話内容書き起こし方法。
送話側チャネルの音声および受話側チャネルの音声を録音手段によって録音した後に、前記録音を基にして、それぞれのチャネルを音声認識することを特徴とする請求項４に記載された通話内容書き起こし方法。
前記送話側チャネルの音声および受話側チャネルの音声は、それぞれ異なった音響および／または言語についての基礎データに基づいて音声認識を行うことを特徴とする請求項４または請求項５に記載された通話内容書き起こし方法。