JP3896760B2

JP3896760B2 - 対話記録編集装置、方法及び記憶媒体

Info

Publication number: JP3896760B2
Application number: JP2000089033A
Authority: JP
Inventors: 直樹林; 裕萬上
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2000-03-28
Filing date: 2000-03-28
Publication date: 2007-03-22
Anticipated expiration: 2020-03-28
Also published as: JP2001272990A

Description

【０００１】
【発明の属する技術分野】
本発明は、複数の対話参加者による対話を記録した対話記録を編集する対話記録編集装置や方法や当該編集を実現する記憶媒体に関する。
【０００２】
【従来の技術】
複数人による対話（例えば会話や会議における対話）を記録し、その記録を分析することで新たな知識が得られることは多い。例えば、顧客との対話は、後でその内容を吟味してみると（特に、上長やトップセールスにその記録を見せて意見を聞いてみると）、その場では気づかなかった問題点やよりよい解決案を考えることができる。あるいは、システムの使い勝手などを調べるために、プロトコル分析という人の発話を分析する手法が有効であることは広く知られている。
【０００３】
音声記録から所望の箇所を見つけだし編集することに関連する従来技術としては、例えば特開平９−９１９２８号公報（以下、文献１と言う）に示される技術がある。この技術では、まず、音声付き映像記録に記録された音声を文章に変換する。次に、時間的位置を示す標識（例えばタイムスタンプ或いは物理アドレス）を介して、音声記録と映像記録と文章とを対応付けて記憶する。そして、この標識を利用して、ユーザが文章に施した編集作業を、音声記録と映像記録の編集に反映させる。従って、この従来技術を用いると、文章中の言葉の削除や並び替えを行うことで、音声や映像を編集することができる。
【０００４】
また、例えば特開平８−３１７３６５号公報（以下、文献２と言う）に記載された電子会議装置では、音声データを会話順に時系列でグラフ化して表示することや、選択された音声データを再生することや、音声データを編集することや、各音声データの記憶量の大きさによりグラフ化表示することが行われる。従って、この従来技術を用いると、音声データの状態を視覚的に認識しながら音声データを編集することができる。
【０００５】
【発明が解決しようとする課題】
しかしながら、上記のような従来技術を対話の記録の編集に適用する場合には、以下で述べるように不具合が生じてしまう。
すなわち、対話の記録を編集する作業としては、例えば、ミーティングの議事録作成や要約作成、対談録の作成などがある。議事録作成や対談録の作成においては、対話全体を残しつつ、言いよどみなどの不要な発言、或いはオフレコ情報など公開できない発言を削除することが主体となる。また、要約作成においては、いくつか重要な議題について関連発言をピックアップするといった作業が要求される。
【０００６】
しかしながら、例えば上記文献１に示される従来技術では、編集の方法として、編集開始点と編集終了点とをユーザが明示的に指定し、それらの点に挟まれていない部分は消去するという方法がとられている。この指定方法では、長時間の取材から数分の番組を制作するような「捨てる」部分が多い音源には向いているが、全体を残しつついくつかの発言を削除していくような場合には、編集開始点と終了点の指定が煩雑となってしまうといった不具合があった。また、この指定方法では、関連する発言をピックアップすることには何らの支援も与えられていないといった不具合があった。
【０００７】
同様に、例えば上記文献２に示される従来技術においても、編集の方法として、範囲指定された音声データを削除、編集するという方法がとられているため、このような範囲指定が煩雑となってしまい、また、関連する発言をピックアップすることが支援されていないといった不具合があった。
本発明は、このような従来の課題を鑑みてなされたもので、対話の記録の編集に向いた編集操作系を与えることができる対話記録編集装置や方法や記憶媒体を提供することを目的とする。
【０００８】
【課題を解決するための手段】
上記目的を達成するため、本発明に係る対話記録編集装置では、対話音声記憶手段が対話を記録した音声情報を記憶し、編集単位抽出手段が対話音声記憶手段に記憶される音声情報中から編集操作をほどこす単位となる部分を編集単位として抽出し、編集単位記憶手段が抽出された編集単位を記憶し、編集単位選択手段が記憶された編集単位の中から所定の編集単位を選択し、編集済み音声情報生成手段が選択された編集単位からなる編集済み音声情報を生成し、編集済み音声記憶手段が生成された編集済み音声情報を記憶する。
従って、ユーザは音声情報中から抽出された編集単位を選択することで音声情報の編集を行うことができるため、例えば従来技術のように編集する範囲を指定することが不要となり、ユーザによる対話記録の編集を行い易くすることができる。
【０００９】
また、本発明に係る対話記録編集装置では、編集単位抽出手段は音声情報中の無声部分を編集単位として抽出し、編集単位選択手段は無声部分である編集単位を一括して選択対象から除外する機能を有する。
従って、例えばユーザが音声情報中の無声部分を１つ１つ指定して削除することをしなくとも、当該無声部分を一括して削除することができる。
【００１０】
また、本発明に係る対話記録編集装置では、編集単位抽出手段は音声情報の話者に基づいて編集単位を抽出する。ここで、音声情報の話者に基づいて編集単位を抽出する仕方としては、例えば対話における話者が変化するところで編集単位を区切って抽出する仕方や、例えば複数人が同時に発言している場合に話者毎の音声情報を異なる編集単位として抽出する仕方を用いることができる。
従って、例えば話者毎に編集単位が抽出されるため、編集を行い易くすることができる。
【００１１】
また、本発明に係る対話記録編集装置では、編集単位抽出手段は音声情報を当該音声情報と対応したテキスト情報へ変換する機能を有しており、編集単位記憶手段は編集単位の属性として当該編集単位の音声情報から当該機能により変換されたテキスト情報を記憶し、編集単位選択手段は編集単位の属性であるテキスト情報に基づいて編集単位を選択する。
従って、各編集単位の音声情報と対応したテキスト情報に基づいて編集単位を選択することができ、例えば、キーワードによる選択や、ユーザの視覚による選択が可能となる。
【００１２】
また、本発明に係る対話記録編集装置では、編集済みテキスト情報生成手段が編集単位選択手段により選択された編集単位の属性であるテキスト情報からなる編集済みテキスト情報を生成し、編集済みテキスト情報記憶手段が生成された編集済みテキスト情報を記憶する。
従って、編集済みの音声情報ばかりでなく、編集済みのテキスト情報も記憶されるため、このようなテキスト情報の利用が可能となる。
【００１３】
また、本発明に係る対話記録編集装置では、編集単位抽出手段は対話音声記憶手段に記憶された音声情報から変換されたテキスト情報に基づいて編集単位を抽出する。
従って、音声情報と対応したテキスト情報に基づいて編集単位を抽出することができ、例えば、キーワードによる抽出が可能となる。
【００１４】
また、本発明に係る対話記録編集装置では、第１キーワード記憶手段（特許請求の範囲において、抽出用キーワード記憶手段と言う）が所定の第１キーワード（特許請求の範囲において、抽出用キーワードと言う）を記憶し、編集単位抽出手段は対話音声記憶手段に記憶された音声情報から変換されたテキスト情報中に第１キーワード記憶手段に記憶された第１キーワードと合致する部分が含まれる場合には当該部分に対応した音声情報部分を例えば１つの編集単位として抽出し、編集単位選択手段は第１キーワードと合致する部分として抽出された編集単位を一括して選択或いは選択対象から除外する機能を有する。
従って、例えば予め設定されたキーワード等と合致する音声情報部分を一括して選択することや、或いは一括して選択しないようにすることができる。
【００１５】
また、本発明に係る対話記録編集装置では、第１キーワードは間投的な言葉である。ここで、間投的な言葉とは、後述する実施例で示すように、例えば対話を続けるための表現を示す言葉であって対話の内容には直接関係がないような言葉（後述するフィラーワード）のことである。
従って、このような言葉を例えば一括して削除することができ、これにより、対話の内容に関係がある音声情報部分のみを残すことや、音声情報量を削減することができる。
【００１６】
また、本発明に係る対話記録編集装置では、第２キーワード記憶手段（特許請求の範囲において、選択用キーワード記憶手段と言う）が所定の第２キーワード（特許請求の範囲において、選択用キーワードと言う）を記憶し、編集単位選択手段は第２キーワードと合致する言葉を含む編集単位を一括して選択或いは選択対象から除外する機能を有する。
従って、例えば予め設定されたキーワード等と合致する言葉を含む編集単位を一括して選択することや、或いは一括して選択しないようにすることができる。
【００１７】
また、本発明に係る対話記録編集装置では、編集単位選択手段は第２キーワードと合致する言葉を含む編集単位が複数ある場合には、これらの編集単位の対話時刻間の他の編集単位も同時に一括して選択或いは選択対象から除外する機能を有する。
従って、第２キーワードと合致する言葉を含む編集単位が複数あった場合には、このような複数の編集単位のそれぞれに含まれる対話が行われた時刻の間の時刻に行われた対話を含む他の編集単位も一括して選択等することができるため、例えば第２キーワードに関する対話部分をまとめて選択等するのに有効である。
【００１８】
また、本発明に係る対話記録編集装置では、第２キーワードは対話の公開を禁止する言葉である。
従って、公開が禁止される対話を含んだ編集単位を一括して削除等することができる。
【００１９】
また、本発明に係る対話記録編集装置では、重要キーワード抽出手段が編集単位記憶手段に記憶された編集単位から所定の重要キーワードを抽出し、抽出された重要キーワードを第２キーワードとして用いる。
従って、重要なキーワードと合致する言葉を含む編集単位を一括して選択することや、或いは一括して選択しないようにすることができる。
【００２０】
また、以上に示したような本発明に係る各種の処理は、例えば記憶媒体に記憶されたプログラムをコンピュータにより読み取って実行することにより実現することも可能である。
一例として、本発明に係る記憶媒体は、コンピュータに実行させるプログラムを当該コンピュータの入力手段が読取可能に記憶しており、当該プログラムは、対話音声メモリに記憶される対話を記録した音声情報中から編集操作をほどこす単位となる部分を編集単位として抽出する処理と、抽出された編集単位を編集単位メモリに記憶する処理と、記憶された編集単位の中から所定の編集単位を選択する処理と、選択された編集単位からなる編集済み音声情報を生成する処理と、生成された編集済み音声情報を編集済み音声メモリに記憶する処理とを当該コンピュータに実行させる。
また、本発明は、方法の発明を提供することも可能である。
【００２１】
【発明の実施の形態】
本発明に係る一実施例を図面を参照して説明する。
図１には、本発明に係る対話記録編集装置の一構成例を示してある。
ここで、同図に示した本実施形態の対話記録編集装置に備えられた各機能部１〜１９を示しつつ、これら各機能部１〜１９と本発明に言う各手段との対応関係を示す。
すなわち、本例では、対話音声データ記憶部１により対話音声記憶手段が構成され、音声認識部２と分割箇所決定部４と音声データ分割部５とテキストデータ分割部６により編集単位抽出手段が構成され、編集単位記憶部７により編集単位記憶手段が構成され、編集単位記憶部７（編集単位の選択状態を記憶する機能）と編集操作入力部８と画面表示部９と選択フラグ設定部１５により編集単位選択手段が構成され、編集操作入力部８と音声データ結合部１６により編集済み音声情報生成手段が構成され、編集済み音声データ記憶部１７により編集済み音声記憶手段が構成されている。
【００２２】
また、本例では、編集操作入力部８とテキストデータ結合部１８により編集済みテキスト情報生成手段が構成され、編集済みテキスト記憶部１９により編集済みテキスト情報記憶手段が構成され、フィラーワード記憶部３により抽出用キーワード記憶手段（第１キーワード記憶手段）が構成され、非公開キーワード記憶部１１とユーザ指定キーワード記憶部１２と重要キーワード記憶部１４により選択用キーワード記憶手段（第２キーワード記憶手段）が構成され、重要キーワード抽出部１３により重要キーワード抽出手段が構成されている。
【００２３】
以下では、上記図１に示した本例の対話記録編集装置を構成する各機能部１〜１９の構成例や動作例を示して、本例の対話記録編集装置を説明する。
対話音声データ記憶部１は、対話音声を記録した音声データをメモリにより記憶する機能を有している。ここで、本実施の形態においては、対話音声データはマルチトラックのデジタル音声データとして磁気ディスク上に記録されており、トラック毎に一人の対話参加者の発言が記録されている。従って、全てのトラックを再生すれば全員の発言を聴くことができ、或る特定のトラックを再生すればある一人の参加者の発言を聴くことができるようになっている。このようなデータ形式を用いているのは、対話参加者の発言の音声認識や発言者交代の発見を容易にするためである。
【００２４】
なお、本実施の形態では音声データ形式としてデジタルマルチトラックデータを用い、各トラックに一人の音声を割り当てているが、後述する各機能部２〜１９がその機能を果たせる限りにおいて、異なるメディアや、異なるトラック数や、異なる音声ミキシングが用いられても構わない。
【００２５】
音声認識部２は、対話音声データ記憶部１に記憶された音声データに対して音声認識処理を行い、当該音声データからテキストデータを生成する機能を有している。ここで、生成されるテキストデータは当該音声データの音声をテキスト（つまり、文字や記号）で表したものとなる。本実施の形態では、上記した音声データの各トラック毎に音声認識処理プロセスが並行して音声認識処理を行う。このようにすることで、複数人が同時に発話した場合などにおける音声認識の精度の低下を防ぐことができる。また、対話参加者毎の音声的特徴に合わせたチューニングを行うことにより、認識精度を高めることができる。
【００２６】
なお、本実施の形態では複数プロセスによる並行処理を行っているが、例えば多人数の同時発話に対しても安定して音声を認識することができるような音声認識処理プロセスを用意した場合には、音声が１トラックにミックスダウンされた音声データから一つのプロセス処理で複数人分のテキストデータを安定した精度で生成することができる。
【００２７】
フィラーワード記憶部３は、例えば対話を続けるための表現を示す言葉であって、対話の内容には直接関係がない言葉（以下、フィラーワードと言う）をメモリにより記憶する機能を有している。本実施の形態では、フィラーワードとしては、「うん」「はい」「ええ」「なるほど」「そうですね」など相手の発言を促すような相づち表現の言葉や、「あの」「ちょっと」など自分の発言機会を得るための割り込み表現の言葉や、「あー」「えーと」「うーん」など時間をとるためのつなぎの言葉が記憶されている。
【００２８】
分割箇所決定部４は、対話音声データ記憶部１に記憶された音声データから対話編集の編集単位を抽出するために、当該音声データを分割する箇所を決定する機能を有している。分割箇所決定部４における処理は、後述する編集操作入力部８を介したユーザの指示により起動される。
具体的には、分割箇所決定部４は、分割のための条件を保持しており、当該条件と前記音声データとを比較して分割箇所を決定する。本実施の形態では、このような条件の種類は大きく二つに分けられる。一つは対話での発声に関するものであり、もう一つは対話での発言内容に関するものである。
【００２９】
発声に関する条件としては、例えば「話者が変わった場合には、その変わった箇所で音声を分割する」という条件や、「規定の時間（本例では１秒）以上、誰も発言しなかった場合に、その直前の発言が終了した箇所で音声を分割する」という条件や、「無声状態から新たな発言があった場合に、その発言の開始時で音声を分割する」という条件や、「複数の話者が同時に発言した場合には、話者毎に音声を分割する」という条件などが用いられる。
また、発言内容に関する条件としては、例えば「フィラーワードがあった場合には、その言葉の最初と最後で音声を分割する」という条件などが用いられる。
【００３０】
分割箇所決定部４は、対話音声データ記憶部１に記憶された音声データ中の各トラックの音量変化を計測して、上記した発声に関する条件と比較することで分割箇所を決定する。また、分割箇所決定部４は、音声認識部２による音声認識結果と上記した発言内容に関する条件とを比較することで分割箇所を決定する。
分割箇所決定部４は、分割箇所を決定すると、分割箇所に挟まれた音声データとその音声に対応するテキストデータとを一つの編集単位として、後述する編集単位記憶部７に記憶させるように、後述する音声データ分割部５とテキストデータ分割部６へ指示を送る。
【００３１】
なお、本実施の形態では話者の交代をマルチトラックデータの音量変化により検出したが、これを、音声データ中で話者を特定するための特徴（例えば、周波数スペクトルの時間変化）を用いて検出するように構成することもできる。この場合には、例えばモノラル或いはステレオの音声データ（すなわち、話者毎に異なる音声データが割り当てられていないもの）を用いることが可能となる。
【００３２】
音声データ分割部５は、分割箇所決定部４による分割箇所の決定に従って、対話音声データ記憶部１に記憶された音声データから分割箇所に挟まれた部分をコピーし、後述する編集単位記憶部７に記憶させる機能を有している。
テキストデータ分割部６は、分割箇所決定部４による分割箇所の決定に従って、音声認識部２による音声認識結果であるテキストデータから分割箇所に挟まれた部分をコピーし、後述する編集単位記憶部７に記憶させる機能を有している。
【００３３】
編集単位記憶部７は、編集単位をメモリにより記憶する機能を有している。
ここで、本実施の形態において編集単位記憶部７に記憶されるデータのデータ構造例を図２に示す。同図に示されるように、本実施の形態では表形式のデータ構造で編集単位を記憶しており、表の「行」にあたる部分が個々の編集単位となる。
【００３４】
また、同図に示されるように、各編集単位は４つの属性のデータから構成される。
１つ目の属性である「順序」は、対話における時間的な順序を示し、値として正数が入る。この「順序」の値は発話の開始時刻により決まる。従って、複数の話者が同時に発言した部分の順序については、後から被さった発言が後の順番となる。
２番目の属性である「音声」には、音声データ分割部５によってコピーされた音声データが代入される。
【００３５】
３番目の属性である「テキスト」には、テキストデータ分割部６によってコピーされたテキストデータ（すなわち、「音声」に代入される音声データをテキストデータへ変換したもの）が代入される。
４番目の属性である「選択フラグ」は、その編集単位が選択されているか否かを示すフラグであり、値として例えば予約語であるＴＲＵＥ又はＦＡＬＳＥ（ＦＡＬＳＥがデフォルト値）が入る。
【００３６】
なお、対話音声データ記憶部１に記憶された音声データ中で対話参加者の全員が無声である部分については、上記した属性「音声」の値として予約語であるＮＵＬＬが入り、上記した属性「テキスト」の値として『（無声）』というテキストデータが入る。
【００３７】
編集操作入力部８は、例えばキーボードやマウス等から構成されており、対話の編集に関してユーザによりメニューの選択や値の入力などの操作入力を実行させるための機能を有している。
本実施の形態では、ユーザは編集操作入力部８を介して次の１）〜８）のような編集操作を行うことができる。
【００３８】
１）対話音声データ記憶部１や編集単位記憶部７や編集済み音声データ記憶部１７といった各機能部に記憶された音声データの再生を指示する操作。
２）編集単位記憶部７や編集済みテキスト記憶部１９といった各機能部に記憶されたテキストデータの画面表示を指示する操作。
【００３９】
３）対話音声データ記憶部１に記憶された音声データから編集単位を新規に生成する（分割箇所決定部４による分割箇所決定処理を起動する）ことを指示する操作。
４）一つの編集単位に対して選択或いは未選択を直接的に指示する操作。なお、本実施の形態で言う選択とは当該編集単位を編集対象等として選択することを示し、未選択とは当該編集単位を編集対象等として選択しないようにすること（つまり、選択対象から除外すること）を示す。
５）全ての編集単位に対して一括して選択或いは未選択を指示する操作。
【００４０】
６）複数の編集単位に対して、キーワードを用いて、一括して選択或いは未選択を指示する操作。
具体的には、後述する非公開キーワードや、ユーザ指定キーワードや、重要キーワードを用いて複数の編集単位を一括して選択或いは未選択の状態にすることができる。
【００４１】
また、選択や未選択の対象となる編集単位は、そのキーワードを含む編集単位か、或いはそのキーワードを含む編集単位及びこれらの編集単位に時間的に挟まれる全ての編集単位か、のいずれかを選ぶことができる。例えば、前者の選び方であれば、そのキーワードを含む複数箇所の発言を一括してピックアップすることができる。また後者の選び方であれば、そのキーワードが何回か出てくる、時間的に連続した対話部分を一括してピックアップすることができる。
なお、ユーザは、例えば後述する各キーワード記憶部１１、１２、１４に記憶されるキーワード群から任意のものを選択することができる。また、キーワードを含む論理式を用いた指示を行って、当該論理式に適合する編集単位を選択等させることも可能である。
【００４２】
７）上記のようにして選択された編集単位から編集済み音声データを生成することを指示する操作。
８）上記のようにして選択された編集単位から編集済みテキストデータを生成することを指示する操作。
【００４３】
画面表示部９は、編集操作入力部８においてユーザから受け付けた操作指示や、編集単位記憶部７に記憶されたテキストデータや、後述する各種のキーワード群や、後述する編集済みテキスト記憶部１９に記憶されたテキストデータ等を画面に表示出力する機能を有している。
音声出力部１０は、対話音声データ記憶部１に記憶された音声データや、編集単位記憶部７に記憶された音声データや、後述する編集済み音声データ記憶部１７に記憶された音声データ等をスピーカ等から音声出力する機能を有している。
【００４４】
非公開キーワード記憶部１１は、対話の公開を禁止する表現を示す言葉をメモリにより記憶する機能を有している。本実施の形態では、このような言葉として、「オフレコ」や「カット」や「削除」や「非公開」などといった言葉が記憶されている。
ユーザ指定キーワード記憶部１２は、編集操作入力部８を用いてユーザが入力したキーワードをメモリにより記憶する機能を有している。
【００４５】
重要キーワード抽出部１３は、編集単位記憶部７に記憶されたテキストデータから、対話において重要とみなされるキーワード（重要キーワード）を抽出する機能を有している。本実施の形態では、固有名詞と、頻出する一般名詞とを重要キーワードとして抽出する。この抽出のために、本例の重要キーワード抽出部１３は用語辞書を保持しており、当該辞書の内容と編集単位記憶部７に記憶されたテキストデータとを比較して重要キーワードを抽出する。なお、このような用語辞書に対してユーザは編集操作入力部８を介して用語を登録することが可能であり、登録された用語は例えば優先的に重要キーワードとして抽出される。
重要キーワード記憶部１４は、重要キーワード抽出部１３により抽出された重要キーワードをメモリにより記憶する機能を有している。
【００４６】
選択フラグ設定部１５は、編集操作入力部８を介したユーザの指示により、編集単位記憶部７に記憶された編集単位の「選択フラグ」の値を設定する機能を有している。本実施の形態では、ユーザから指示されたキーワードを含む（論理式で指示された場合はそれを満たす）テキストデータを「テキスト」に有する編集単位を検索し、検索された編集単位の「選択フラグ」の値を「選択」する場合にはＴＲＵＥに、選択しない（未選択の）場合にはＦＡＬＳＥに設定する。
【００４７】
ここで、上記したユーザからの指示が「時間的に挟まれる編集単位も一括して設定する」ものであれば、上記のようにして検索された複数の編集単位に属性「順序」の値が挟まれる編集単位（すなわち、検索された複数の編集単位の対話時刻間の他の編集単位）の「選択フラグ」の値も、当該検索された編集単位について設定されるフラグの値と同じ値に設定する。
【００４８】
音声データ結合部１６は、編集単位記憶部７に記憶された複数の音声データを結合して一つの音声データ（編集済み音声データ）を生成する機能を有している。ここで、結合の対象となる音声データは、上記した「選択フラグ」の値がＴＲＵＥである編集単位が有する音声データである。音声データ結合部１６による処理は、例えば編集操作入力部８を介したユーザからの指示により起動される。
編集済み音声データ記憶部１７は、音声データ結合部１６により生成された音声データをメモリにより記憶する機能を有している。
【００４９】
テキストデータ結合部１８は、編集単位記憶部７に記憶された複数のテキストデータを結合して一つのテキストデータ（編集済みテキストデータ）を生成する機能を有している。ここで、結合の対象となるテキストデータは、上記した「選択フラグ」の値がＴＲＵＥである編集単位が有するテキストデータである。テキストデータ結合部１８による処理は、例えば編集操作入力部８を介したユーザからの指示により起動される。
編集済みテキストデータ記憶部１９は、テキストデータ結合部１８により生成されたテキストデータをメモリにより記憶する機能を有している。
【００５０】
以上に示したように、本例の対話記録編集装置では、対話の記録の編集に向いた編集操作系を提供することができ、これにより、ユーザによる対話記録の編集を行い易くすることができる。具体的には、本例の対話記録編集装置では、対話音声データ記憶部１に記憶された音声データから分割箇所決定部４により複数の編集単位が抽出されるため、例えば全体を残しつついくつかの発言を削除していくような編集であっても容易に行うことができる。また、本例の対話記録編集装置では、キーワードによる検索等が可能であるため、例えば関連する発言をピックアップすることについても大きな支援が与えられる。
【００５１】
なお、本例では、本発明の好適な実施形態を示したが、本発明に係る対話記録編集装置の構成としては、必ずしも本例で示したものに限られず、種々な構成が用いられてもよい。
例えば、本実施形態では、好ましい態様として、本発明に係る対話記録編集装置により行われる各種の処理としては、例えばプロセッサやメモリ等を備えたハードウエア資源においてプロセッサがＲＯＭに格納された制御プログラムを実行することにより制御される構成としたが、例えば当該処理を実行するための各機能手段を独立したハードウエア回路として構成することも可能である。
【００５２】
また、本発明は上記のような制御プログラムを格納したフロッピーディスクやＣＤ−ＲＯＭ等のコンピュータにより読み取り可能な記憶媒体として把握することもでき、当該制御プログラムを記憶媒体からコンピュータに入力してプロセッサに実行させることにより、本発明に係る処理を遂行させることができる。
【００５３】
【発明の効果】
以上説明したように、本発明に係る対話記録編集装置や方法や記憶媒体によると、例えば対話の編集に適した編集単位が対話音声から抽出されるため、ユーザはこのような編集単位に対して編集をほどこすことができ、ユーザによる編集操作が容易になる。
特に、本発明の一態様では、相づちや割り込みやつなぎの言葉など、対話を続けるために発せられた言葉を一括して除去することができる。
【００５４】
また、本発明の一態様では、或るキーワードが現れる対話部分を一括して取り出す、或いは、一括して除去することができる。更に、本発明の一態様では、このようなキーワードとして、ユーザが明示的に指定するものや、「オフレコ」などの公開禁止に関わるものや、対話中に現れる重要キーワードなどを容易に使い分けることができる。
【００５５】
また、本発明の一態様では、対話中の無音部分を一括して除去することができる。
また、本発明の一態様では、編集結果を音声として、或いは、テキストとして残すことができる。
以上のように、本発明に係る対話記録編集装置や方法や記憶媒体では、従来技術を用いた場合と比べて、ユーザによる対話の編集を容易にすることができる。
【図面の簡単な説明】
【図１】本発明の一実施形態に係る対話記録編集装置の構成例を示す図である。
【図２】編集単位記憶部のデータ構造の一例を示す図である。
【符号の説明】
１・・対話音声データ記憶部、２・・音声認識部、
３・・フィラーワード記憶部、４・・分割箇所決定部、
５・・音声データ分割部、６・・テキストデータ分割部、
７・・編集単位記憶部、８・・編集操作入力部、９・・画面表示部、
１０・・音声出力部、１１・・非公開キーワード記憶部、
１２・・ユーザ指定キーワード記憶部、
１３・・重要キーワード抽出部、１４・・重要キーワード記憶部、
１５・・選択フラグ設定部、１６・・音声データ結合部、
１７・・編集済み音声データ記憶部、１８・・テキストデータ結合部、
１９・・編集済みテキスト記憶部、

Claims

対話を記録した音声情報を記憶する対話音声記憶手段と、
対話音声記憶手段に記憶される音声情報中から、編集操作をほどこす単位となる部分を編集単位として抽出し、音声情報を当該音声情報と対応したテキスト情報へ変換する編集単位抽出手段と、
抽出された編集単位を記憶するとともに、編集単位の属性として当該編集単位の音声情報から変換されたテキスト情報を記憶する編集単位記憶手段と、
所定の選択用キーワードを記憶する選択用キーワード記憶手段と、
編集単位の属性であるテキスト情報に基づいて、選択用キーワードと合致する言葉を含む編集単位を一括して選択或いは選択対象から除外し、このとき、選択用キーワードと合致する言葉を含む編集単位が複数ある場合には、これらの編集単位の対話時刻間の他の編集単位も同時に一括して選択或いは選択対象から除外して、記憶された編集単位の中から所定の編集単位を選択する編集単位選択手段と、
選択された編集単位からなる編集済み音声情報を生成する編集済み音声情報生成手段と、
生成された編集済み音声情報を記憶する編集済み音声記憶手段と、
を備えたことを特徴とする対話記録編集装置。
請求項１に記載の対話記録編集装置において、
選択用キーワードは、対話の公開を禁止する言葉であることを特徴とする対話記録編集装置。
請求項１又は請求項２に記載の対話記録編集装置において、
編集単位記憶手段に記憶された編集単位から所定の重要キーワードを抽出する重要キーワード抽出手段を備え、
選択用キーワードとして抽出された重要キーワードを用いることを特徴とする対話記録編集装置。
請求項１乃至請求項３のいずれか１項に記載の対話記録編集装置において、
編集単位抽出手段は、音声情報中の無声部分を編集単位として抽出し、
編集単位選択手段は、無声部分である編集単位を一括して選択対象から除外する機能を有することを特徴とする対話記録編集装置。
請求項１乃至請求項４のいずれか１項に記載の対話記録編集装置において、
編集単位抽出手段は、音声情報の話者に基づいて編集単位を抽出することを特徴とする対話記録編集装置。
請求項１乃至請求項５のいずれか１項に記載の対話記録編集装置において、
編集単位選択手段により選択された編集単位の属性であるテキスト情報からなる編集済みテキスト情報を生成する編集済みテキスト情報生成手段と、
生成された編集済みテキスト情報を記憶する編集済みテキスト情報記憶手段と、
を備えたことを特徴とする対話記録編集装置。
請求項１乃至請求項６のいずれか１項に記載の対話記録編集装置において、
編集単位抽出手段は、対話音声記憶手段に記憶された音声情報から変換されたテキスト情報に基づいて編集単位を抽出することを特徴とする対話記録編集装置。
請求項７に記載の対話記録編集装置において、
所定の抽出用キーワードを記憶する抽出用キーワード記憶手段を備え、
編集単位抽出手段は、対話音声記憶手段に記憶された音声情報から変換されたテキスト情報中に抽出用キーワード記憶手段に記憶された抽出用キーワードと合致する部分が含まれる場合には、当該部分に対応した音声情報部分を編集単位として抽出し、
編集単位選択手段は、抽出用キーワードと合致する部分として抽出された編集単位を一括して選択或いは選択対象から除外する機能を有することを特徴とする対話記録編集装置。
請求項８に記載の対話記録編集装置において、
抽出用キーワードは、間投的な言葉であることを特徴とする対話記録編集装置。
対話記録編集装置に備えられた編集単位抽出手段が、対話を記録した音声情報を記憶する対話音声記憶手段に記憶される音声情報中から、編集操作をほどこす単位となる部分を編集単位として抽出し、音声情報を当該音声情報と対応したテキスト情報へ変換し、
対話記録編集装置に備えられた編集単位記憶手段が、抽出された編集単位を記憶するとともに、編集単位の属性として当該編集単位の音声情報から変換されたテキスト情報を記憶し、
対話記録編集装置に備えられた編集単位選択手段が、編集単位の属性であるテキスト情報に基づいて、所定の選択用キーワードを記憶する選択用キーワード記憶手段に記憶された選択用キーワードと合致する言葉を含む編集単位を一括して選択或いは選択対象から除外し、このとき、選択用キーワードと合致する言葉を含む編集単位が複数ある場合には、これらの編集単位の対話時刻間の他の編集単位も同時に一括して選択或いは選択対象から除外して、記憶された編集単位の中から所定の編集単位を選択し、
対話記録編集装置に備えられた編集済み音声情報生成手段が、選択された編集単位からなる編集済み音声情報を生成し、
対話記録編集装置に備えられた編集済み音声記憶手段が、生成された編集済み音声情報を記憶する、
ことを特徴とする対話記録編集方法。
コンピュータに実行させるプログラムを当該コンピュータの入力手段が読取可能に記憶した記憶媒体において、
当該プログラムは、対話を記録した音声情報を記憶する対話音声メモリに記憶される音声情報中から、編集操作をほどこす単位となる部分を編集単位として抽出し、音声情報を当該音声情報と対応したテキスト情報へ変換する処理と、
抽出された編集単位を編集単位メモリに記憶するとともに、編集単位の属性として当該編集単位の音声情報から変換されたテキスト情報を編集単位メモリに記憶する処理と、
編集単位の属性であるテキスト情報に基づいて、所定の選択用キーワードを記憶する選択用キーワードメモリに記憶された選択用キーワードと合致する言葉を含む編集単位を一括して選択或いは選択対象から除外し、このとき、選択用キーワードと合致する言葉を含む編集単位が複数ある場合には、これらの編集単位の対話時刻間の他の編集単位も同時に一括して選択或いは選択対象から除外して、記憶された編集単位の中から所定の編集単位を選択する処理と、
選択された編集単位からなる編集済み音声情報を生成する処理と、
生成された編集済み音声情報を編集済み音声メモリに記憶する処理とを当該コンピュータに実行させることを特徴とする記憶媒体。