JP3444831B2

JP3444831B2 - 編集処理装置、及び編集処理プログラムが記憶された記憶媒体

Info

Publication number: JP3444831B2
Application number: JP33704199A
Authority: JP
Inventors: 初子浮川; 寛森本; 宏一東
Original assignee: 株式会社ジャストシステム
Priority date: 1999-11-29
Filing date: 1999-11-29
Publication date: 2003-09-08
Anticipated expiration: 2019-11-29
Also published as: JP2001155467A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、編集処理装置、及
び編集処理プログラムが記憶された記憶媒体に関し、更
に詳細には、音声データを容易に編集可能な編集処理装
置、及び編集処理プログラムが記憶された記憶媒体に関
する。

【０００２】

【従来の技術】従来、音声データを編集処理装置、及び
編集処理プログラムが記憶された記憶媒体による編集処
理によって編集する場合には、実際に音声を再生するこ
とによって編集したい音声データの位置を検出したり、
音声データとともにタイムレコードを記録しておき、タ
イムレコードを目安にして編集したい位置を検出してい
る。そして、音声やタイムレコードを目安にして、音声
データの波形等を扱って手動で音声データを編集してい
る。

【０００３】

【発明が解決しようとする課題】しかし、一連の音声デ
ータを区切って編集した位置を指定するためには、微妙
なタイミングでの操作が必要であり、熟練を必要とする
問題点がある。また、タイムレコード等の、音声以外の
目安を使用する場合には、音声データを取り扱うため、
直感的な取り扱いができない問題点がある。

【０００４】尚、音声データを伴う映像データを編集す
る編集処理においては、音声データとを文字データに変
換して表示し、文字データを利用して映像データを編集
する技術が提案されている（特開平９−１３０７３６号
公報）。この編集処理においては、音声データを変換し
た文字データによって編集箇所を検出する。そのため、
音声の再生やタイムレコードを目安にするよりも容易に
編集位置を探すことができる。音声データとしては、撮
像時の音声のデータや、撮像時に編集用に入力した音声
のデータが使用される。しかし、映画やニュースでは、
撮像時の音声のデータは膨大となるため、その音声デー
タを文字データに変換しても、文字データの量が多く、
編集箇所を検出するのは時間がかかる場合がある。ま
た、編集用の音声のデータを使用する場合には、その音
声を入力するための手間がかかる問題点がある。更に、
この技術では、編集位置の検索以外については、従来と
同様に音声データや映像データを手動で取り扱うことで
行われ、手間が改善されていない問題点がある。この技
術では、文字データを編集することはできず、文字デー
タの編集によって音声データが編集される訳ではない。

【０００５】本発明は、上述のような課題を解決するた
めになされたもので、音声データの編集を容易に短時間
で行うことのできる編集処理装置、及び編集処理プログ
ラムが記憶された記憶媒体を提供することを目的とす
る。

【０００６】

【課題を解決するための手段】上記目的を達成するため
に、請求項１に記載の発明は、音声認識手段による音声
認識結果を、認識の対象となった音声データとともに取
得する認識結果取得手段と、前記認識結果取得手段で取
得した前記音声認識結果に基づいて認識文章を作成する
文章作成手段と、前記文章作成手段で作成された前記認
識文章と前記認識結果取得手段で取得した前記音声デー
タとの対応を前記認識文章の所定単位毎に取得する対応
取得手段と、前記所定単位毎に取得した前記認識文章を
表示する表示手段と、前記表示手段に表示された前記認
識文章を、前記所定単位で入れ変え、削除、又は複写の
指示を入力する編集指示入力手段と、前記編集指示入力
手段からの入力に応じて、前記文章作成手段で取得され
た前記認識文章を前記所定単位で、入れ換え、削除、又
は複写により編集する文章編集手段と、前記文書編集手
段の編集結果に従って、前記対応取得手段で対応され
た、当該編集された前記認識文章に対応する前記音声デ
ータを入れ換え、削除、又は複写により編集するデータ
編集手段とを備える編集処理装置を提供することにより
前記目的を達成するものである。

【０００７】上述の音声認識結果は、音素、単音節、単
語、形態素、等、通常の音声認識手段（音声認識装置）
によって、音声波形等の音声データを音声認識辞書と照
合し取得される音声認識結果、またはこれらを仮名漢字
変換したものである。この仮名漢字変換は、自然言語処
理に基づいた解析を加えて変換したものとすることがで
きる。また、音声認識結果は、外部の音声認識装置によ
る音声認識結果であっても、本編集処理装置に配設され
た音声認識部による結果であってもよい。外部の音声認
識装置による音声認識結果は、Ｉ／Ｏインターフェース
を介して取得されたものであっても、フロッピーディス
クやフラッシュメモリ等の各種記憶媒体や、インターネ
ット及びパソコン通信等の公衆回線や専用回線を介して
取得されたものであってもよい。上記文章作成手段は、
前記音声認識結果によって取得された音素、単音節、単
語、形態素を仮名漢字変換して認識文章とするものとす
ることができる。作成する文章は、１つの文であって
も、複数の文から構成されたものであってもよい。ま
た、音声認識装置への音声入力時に、「次の段落」等の
音声によって段落に区分されて複数の段落に構成された
ものであってもよい。また、音声認識結果として仮名漢
字変換語のデータを取得した場合には、このまま文章と
したり、取得したデータに独自の自然言語処理等による
分析を加えて再度仮名漢字変換し直した文章とするもの
であってもよい。上記対応取得手段は、音声認識結果を
取得した先の音声認識手段から、音声認識結果と音声デ
ータとの対応を取得する。この対応は、音声認識結果
と、音声データとのそれぞれついて、所定時を基準とし
た時間を介しての対応とすることができる。例えば、音
声認識結果の所定単位である「わたくしは」が、認識開
始後０．７秒から１．１秒までの間であった場合には、
音声データのうち認識開始後０．７から１．１秒までの
部分が、認識結果である「わたくしは」に対応している
とする。対応の前記所定単位は、音声認識時の単位と同
じ細かさでもよいが、音声認識の単位のまとまりであっ
てもよい。たとえば、単語毎に音声認識結果が取得され
た場合であっても、対応は、認識された単語が集合して
形成された文節や文、段落毎に、音声データとの対応が
取得されるようにしてもよい。

【０００８】請求項２に記載の発明は、請求項１に記載
の編集処理装置において、前記所定単位は、音素、単音
節、単語、形態素、文節、及び文のうちのいずれかであ
る編集処理装置を提供することにより前記目的を達成す
るものである。

【０００９】請求項３に記載の発明は、前記文章作成手
段は、前記認識結果取得手段で取得した音声認識結果を
文章に変換する変換手段と、前記変換手段により取得さ
れた変換文章を、複数の段落の段落に区分する区分手段
とを備え、前記所定単位は、前記区分手段で区分された
前記段落である請求項１に記載の編集処理装置を提供す
ることにより前記目的を達成するものである。前記区分
手段は、例えば、変換手段で取得された変換文章中に頻
出する自立語等を重要語（キーワード）として複数調べ
出し（重要語取得手段）、最も出現頻度の高い重要語が
切り替わる位置を段落の分け目として段落区分を取得す
る（区分決定手段）ものとすることができる。また、前
記区分手段は、所定の数の文のまとまり毎に１または複
数の重要語を調べ出し、所定のまとまり毎に、そのまと
まりの中でもっとも重要語の出現頻度の高い重要文（要
約）を選び出し、重要語どうしの関連等から各重要文ど
うしの類似度を算出し、類似度が所定以上の重要文を含
むまとまりどうしは同一の段落とし、類似度が低いまと
まりどうしの間で段落が変わるとして区分するものとす
ることもできる。また、前記区分手段は、「次に」「さ
て、」等の所定の１または複数の接続詞その他の単語
（特定語から後は新しい段落としたり、「以上」「終わ
り」「お伝えしました」等の特定の１または複数の単語
（特定語）の後は、新しい段落とする等、特定語を検出
し（特定語検出手段）、この特定語に基づいて文書を段
落に区分するものとすることもできる。更に、前記区分
手段は、音声認識時に、「新しい段落」等の、段落区分
のための音声が入力されたものを認識して段落が形成さ
れている場合には、この段落をそのまま認識文章の段落
としてもよい。

【００１０】請求項４に記載の発明は、前記文章作成手
段は、前記認識結果取得手段で取得した音声認識結果を
文章に変換する変換手段と、前記変換手段により取得さ
れた変換文章を、複数の段落の段落に区分する区分手段
と、前記区分手段で区分された前記段落それぞれを要約
する要約手段とを備え、前記要約手段により取得された
各段落の前記要約からなる文章を認識文書として取得
し、前記対応取得手段は、前記段落を前記所定単位とし
て、前認識記文章と前記音声データとの対応を取得する
請求項１に記載の編集処理装置を提供することにより前
記目的を達成する。前記要約手段としては、変化文章中
から重要語（キーワード）を検出し（重要語検出手
段）、各段落中から重要語の出現頻度の大きな１または
複数の文等を重要文として選択し（文選択手段）、これ
らの文をその文を含む段落順にならべて（文整列手段）
要約とすることができる。

【００１１】請求項５に記載の発明は、前記認識結果取
得手段は、画像データに付加された音声データを前記画
像データとともに取得し、前記対応取得手段は、前記文
章作成手段で作成された前記認識文章と、前記音声デー
タ及び前記画像データとの所定単位毎の対応を取得し、
前記データ編集手段は、前記文書編集手段の編集結果に
従って、前記対応に基づいて、前記音声データとともに
前記画像データを編集する請求項１から請求項４のうち
のいずれか１の請求項に記載の編集処理装置を提供する
ことにより前記目的を達成するものである。

【００１２】請求項６に記載の発明は、音声認識手段に
よる音声認識結果を、認識の対象となった音声データと
ともに取得する認識結果取得機能と、前記認識結果取得
機能で取得した前記音声認識結果に基づいて認識文章を
作成する文章作成機能と、前記文章作成機能で作成され
た前記認識文章と前記認識結果取得機能で取得した前記
音声データと対応を前記認識文章の所定単位毎に取得す
る対応取得機能と、前記所定単位毎に取得した前記認識
文章を表示する表示機能と、前記表示機能で表示された
前記認識文章を、前記所定単位で入れ変え、削除、又は
複写の指示を入力する編集指示入力機能と、前記編集指
示入力機能による入力に応じて、前記文章作成機能で取
得された前記認識文章を前記所定単位で、入れ換え、削
除、又は複写により編集する文章編集機能と、前記文書
編集機能の編集結果に従って、前記対応取得機能で対応
された、当該編集された前記認識文章に対応する前記音
声データを入れ換え、削除、又は複写により編集するデ
ータ編集機能とをコンピュータに実現させるためのコン
ピュータ読み取り可能な編集処理プログラムが記憶され
たことを特徴とする記憶媒体を提供することにより前記
目的を達成するものである。また、前記認識結果取得機
能と、前記認識文章作成機能と、前記対応取得機能と、
文章編集機能と、前記データ編集機能と、を実現するた
めの編集処理プログラム、編集処理プログラム伝送媒
体、編集処理プログラム搬送波、編集処理プログラム信
号、またはプログラム製品としてもよい。ここで、プロ
グラム製品には、編集処理プログラムによる前記各機能
を実現する記憶媒体、サーバシステムコンピュータ、及
びコンピュータシステム等を含む。

【００１３】請求項６に記載の発明は、音声認識手段に
よる音声認識結果を、認識の対象となった音声データと
ともに取得する認識結果取得機能と、前記認識結果取得
機能で取得した前記音声認識結果に基づいて認識文章を
作成する認識文章作成機能と、前記文章作成機能で作成
された前記認識文章と前記認識結果取得機能で取得した
前記音声データとの対応を前記認識文章の所定単位毎に
取得する対応取得機能と、前記文章作成機能で取得され
た前記認識文章を前記所定単位で編集する文章編集機能
と、前記文書編集機能の編集結果に従って、前記対応に
基づいて、前記音声データを編集するデータ編集機能
と、をコンピュータに実現させるためのコンピュータ読
み取り可能な編集処理プログラムであって、且つ、前記
所定単位は、音素、単音節、単語、形態素、文節、及び
文、のうちのいずれかである編集処理プログラムが記憶
される記憶媒体とすることができる。また、前記編集処
理プログラム、編集処理プログラム伝送媒体、編集処理
プログラム搬送波、編集処理プログラム信号、またはプ
ログラム製品とすることができる。

【００１４】請求項６に記載の発明は、音声認識手段に
よる音声認識結果を、認識の対象となった音声データと
ともに取得する認識結果取得機能と、前記認識結果取得
機能で取得した前記音声認識結果に基づいて認識文章を
作成する認識文章作成機能と、前記文章作成機能で作成
された前記認識文章と前記認識結果取得機能で取得した
前記音声データとの対応を前記認識文章の所定単位毎に
取得する対応取得機能と、前記文章作成機能で取得され
た前記認識文章を前記所定単位で編集する文章編集機能
と、前記文書編集機能の編集結果に従って、前記対応に
基づいて、前記音声データを編集するデータ編集機能
と、をコンピュータに実現させるためのコンピュータ読
み取り可能な編集処理プログラムであって、且つ、前記
文章作成機能は、前記認識結果取得機能で取得した音声
認識結果を文章に変換する変換機能と、前記変換機能に
より取得された変換文章を、複数の段落の段落に区分す
る区分機能とを備え、前記所定単位は、前記区分機能で
区分された前記段落である編集処理プログラムが記憶さ
れた記憶媒体とすることができる。また、前記編集処理
プログラム、編集処理プログラム伝送媒体、編集処理プ
ログラム搬送波、編集処理プログラム信号、またはプロ
グラム製品とすることができる。前記編集処理プログラ
ム、編集処理プログラム伝送媒体、編集処理プログラム
搬送波、編集処理プログラム信号、またはプログラム製
品は、音声入力手段を備えたコンピュータに、音声入力
手段により入力された音声を認識する音声認識機能を実
現させるものとすることができる。

【００１５】請求項６に記載の発明は、音声認識手段に
よる音声認識結果を、認識の対象となった音声データと
ともに取得する認識結果取得機能と、前記認識結果取得
機能で取得した前記音声認識結果に基づいて認識文章を
作成する認識文章作成機能と、前記文章作成機能で作成
された前記認識文章と前記認識結果取得機能で取得した
前記音声データとの対応を前記認識文章の所定単位毎に
取得する対応取得機能と、前記文章作成機能で取得され
た前記認識文章を前記所定単位で編集する文章編集機能
と、前記文書編集機能の編集結果に従って、前記対応に
基づいて、前記音声データを編集するデータ編集機能
と、をコンピュータに実現させるためのコンピュータ読
み取り可能な編集処理プログラムであって、且つ、前記
文章作成機能は、前記認識結果取得機能で取得した音声
認識結果を文章に変換する変換機能と、前記変換機能に
より取得された変換文章を、複数の段落の段落に区分す
る区分機能と、前記区分機能で区分された前記段落それ
ぞれを要約する要約機能とを備え、前記要約機能により
取得された各段落の前記要約からなる文章を認識文書と
して取得し、前記対応取得機能は、前記段落を前記所定
単位として、前認識記文章と前記音声データとの対応を
取得する編集処理プログラムが記憶された記憶媒体とす
ることができる。また、前記編集処理プログラム、編集
処理プログラム伝送媒体、編集処理プログラム搬送波、
編集処理プログラム信号、またはプログラム製品とする
ことができる。

【００１６】請求項６に記載の発明は、音声認識手段に
よる音声認識結果を、認識の対象となった音声データと
ともに取得する認識結果取得機能と、前記認識結果取得
機能で取得した前記音声認識結果に基づいて認識文章を
作成する認識文章作成機能と、前記文章作成機能で作成
された前記認識文章と前記認識結果取得機能で取得した
前記音声データとの対応を前記認識文章の所定単位毎に
取得する対応取得機能と、前記文章作成機能で取得され
た前記認識文章を前記所定単位で編集する文章編集機能
と、前記文書編集機能の編集結果に従って、前記対応に
基づいて、前記音声データを編集するデータ編集機能
と、をコンピュータに実現させるためのコンピュータ読
み取り可能な編集処理プログラムであって、且つ、前記
認識結果取得機能は、画像データに付加された音声デー
タを前記画像データとともに取得し、前記対応取得機能
は、前記文章作成機能で作成された前記認識文章と、前
記音声データ及び前記画像データとの所定単位毎の対応
を取得し、前記データ編集機能は、前記文書編集機能の
編集結果に従って、前記対応に基づいて、前記音声デー
タとともに前記画像データを編集する編集処理プログラ
ムが記憶された記憶媒体とすることができる。また、前
記編集処理プログラム、編集処理プログラム伝送媒体、
編集処理プログラム搬送波、編集処理プログラム信号、
またはプログラム製品とすることができる。

【００１７】

【発明の実施の形態】以下、本発明の編集処理装置、及
び編集処理プログラムが記憶された記憶媒体の好適な実
施の形態について、図１から図１０を参照して詳細に説
明する。図１は、本発明の編集処理装置の第１の実施形
態であり、本発明の編集処理プログラムが記憶された記
憶媒体の第１の実施形態の該プログラムが読み取られ
た、コンピュータの構成を表したブロック図である。こ
の図１に示すように、編集処理装置（コンピュータ）
は、装置全体を制御するための制御部１１を備えてい
る。この制御部１１には、データバス等のバスライン２
１を介して、入力装置としてのキーボード１２やマウス
１３、表示装置１４、音声認識装置の一部としてのマイ
ク１５、記憶装置１６、記憶媒体駆動装置１７、通信制
御装置１８、入出力Ｉ／Ｆ１９、及び音声出力装置２０
が接続されている。

【００１８】制御部１１は、ＣＰＵ１１１、ＲＯＭ１１
２、ＲＡＭ１１３を備えており、ＣＰＵがＲＡＭをワー
キングエリアとしてＲＯＭに格納されたプログラムを実
行することによって、キーボードから入力された仮名文
字列を漢字混り文に変換する仮名漢字変換処理、マイク
１５からの音声入力等によって音声データを取得する音
声データ取得処理、音声データを音声認識辞書と比較対
照して形態素分析を行って音声認識結果を取得する音声
認識処理、音声認識処理や外部から入力された音声認識
結果を、認識の対象となった音声データとともに取得す
る認識結果取得処理、前記認識結果取得処理で取得した
音声認識結果を文章に変換する変換処理、前記変換処理
により取得された変換文章を、複数の段落に区分する区
分処理、区分処理で区分された前記段落それぞれを要約
する要約処理、要約処理により取得された各段落の前記
要約からなる文章を認識文書として取得する認識文書取
得処理、前記段落を前記所定単位として、前認識記文章
と前記音声データとの対応を取得する対応取得処理、要
約を各段落毎に編集する文章編集処理、文書編集処理の
編集結果に従って、前記対応に基づいて、前記音声デー
タを編集するデータ編集処理、音声データや編集処理に
よって編集された音声データに基づいて音声出力装置２
０のスピーカから音声を出力する音声出力処理の各処理
を行う。ＲＯＭ１１２は、ＣＰＵ１１１が各種制御や演
算を行うための各種プログラムやデータが予め格納され
たリードオンリーメモリである。

【００１９】ＲＡＭ１１３は、ＣＰＵ１１１にワーキン
グメモリとして使用されるランダムアクセスメモリであ
る。このＲＡＭ１１３には、本実施形態による編集処理
を行うためのエリアとして、マイク１５から入力された
音声の音声データ、通信制御装置１８や記憶媒体駆動装
置１７から入力された音声データが、音声認識開始時か
らの時刻とともに格納される音声データ格納エリア１１
３１、音声データに形態素分析を行った形態素を解析し
て文章化した変換文章が形態素毎の音声認識開始時から
の時刻ともに格納される変換文章格納エリア１１３２、
変換文章の段落毎に抽出された重要文を、対応する各段
落の変換文章の音声認識開始からの時間とともに格納す
る要約格納エリア１１３４、入出力Ｉ／Ｆ１９を介して
外部の撮像装置から入力された画像の画像データ、通信
制御装置１８や記憶媒体駆動装置１７から前記音声デー
タに対応する画像データが、時刻とともに格納される画
像データ格納エリア１１３５、その他の各種エリアが確
保されるようになっている。

【００２０】キーボード１２は、かな文字を入力するた
めのかなキーやテンキー、各種機能を実行するための機
能キー、カーソルキー、等の各種キーが配置されてい
る。マウス１３は、ポインティングデバイスであり、表
示装置１４に表示される文書中の一部を指定したり、表
示装置１４に表示されたアイコンやコマンドをクリック
等によって選択し、対応する機能を指定する入力装置で
ある。このキーボード１２やマウス１３は、編集指示入
力手段の一部として機能し、キーボード１２からの入力
やマウス１３によるポインティングによって、表示装置
１４に表示される重要文を並べ替えたり、削除する等の
編集を行う。

【００２１】表示装置１４は、例えばＣＲＴや液晶ディ
スプレイ等が使用される。この表示装置１４には、外部
からの音声データを文章化した変換文章の要約が表示さ
れ、要約文表示手段として機能する。また、表示装置１
４は、表示された要約を、要約文単位で、キーボードか
らの入力やマウス操作によって編集した編集要約を表示
する編集要約表示手段としても機能する。

【００２２】マイク１５は、制御部１１内の音声認識部
（音声認識手段）において音声認識の対象となる音声が
入力される音声入力手段として機能する。マイク１５か
らの音声は、制御部１１内の音声認識部により単語とし
て認識される。そして、編集手段の一部として機能し、
表示装置１４に要約を表示させたり、要約文の入れ換え
や削除、複写等の編集操作を行うことができるようにな
っている。このマイク１５は、例えば音楽編集等の、本
実施形態のコンピュータにおいて実行される他のプログ
ラムにおいて必要な音声入力手段としても機能するもの
とすることもできる。また、入力音声を的確に収集する
ために指向性のある専用のマイクとしてもよい。更に、
音声出力装置として図示しないスピーカ（イヤホン）を
備え、このスピーカとマイク１５とでハンズフリーユニ
ットを形成させ、入力音声を確認しながら音声入力がで
きるようにしてもよい。

【００２３】記憶装置１６は、読み書き可能な記憶媒体
と、その記憶媒体に対してプログラムやデータ等の各種
情報を読み書きするための駆動装置で構成されている。
この記憶装置１６に使用される記憶媒体としては、主と
してハードディスクが使用されるが、後述の記憶媒体駆
動装置１７で使用される各種記憶媒体のうちの読み書き
可能な記憶媒体を使用するようにしてもよい。記憶装置
１６は、仮名漢字変換辞書格納部１６１、プログラム格
納部１６２、文書格納部１６４、音声認識辞書格納部１
６５、編集データ格納部１６６及び図示しないその他の
格納部（例えば、この記憶装置１６内に格納されている
プログラムやデータ等をバックアップするための格納
部）等を有している。

【００２４】プログラム格納部１６２には、仮名漢字変
換辞書格納部に格納される仮名漢字変換辞書を使用して
入力された仮名文字列を漢字混り文に変換する仮名漢字
変換プログラム、マイク１５からの音声入力により音声
データを取得する音声データ取得処理プログラム、音声
データを音声認識辞書と比較対照して形態素分析を行っ
て音声認識結果を取得する音声認識処理プログラム、音
声認識処理や外部から入力された音声認識結果を、認識
の対象となった音声データとともに取得する認識結果取
得処理プログラム、前記認識結果取得処理で取得した音
声認識結果を文章に変換する変換処理プログラム、前記
変換処理により取得された変換文章を、複数の段落に区
分する区分処理プログラム、前記区分処理で区分された
それぞれの前記段落を要約する要約処理プログラム、要
約と音声データとの対応を取得する対応取得処理プログ
ラム、要約を各段落の要約文毎に編集する文章編集処理
プログラム、文書編集処理の編集結果に従って、前記対
応に基づいて、前記音声データを編集するデータ編集処
理プログラム、音声データや編集処理によって編集され
た音声データに基づいて音声を出力する音声出力処理プ
ログラム、等の各種プログラムが格納されている。

【００２５】文書格納部１６４には、仮名漢字変換プロ
グラムにより作成された文書や、他の装置で作成されて
記憶媒体駆動装置１７や通信制御装置１８から読み込ま
れた文書、及び、音声認識結果に基づいて作成された認
識文書、及び認識文書を編集した後の文章等が格納され
る。この文書格納部１６４に格納される各文書の形式は
特に限定されるものではなく、ＨＴＭＬ（Hyper Text
Markup Language）形式、ＪＩＳ形式、等の各種のテ
キスト形式の文章データが格納可能である。音声認識辞
書格納部１６５には、音素、単音節、単語、形態素、文
節等（以下形態素等）の単位での音声データと単語等と
の対応音声認識辞書が格納されている。本実施形態にお
いては、形態素毎の音声パターンと形態素が対応する形
態素辞書が格納されている。この音声認識辞書は、制御
部１１内の音声認識部において、マイク１５から入力さ
れた音声の音声データのパターンや、他の装置で作成さ
れ記憶媒体駆動装置１７や通信制御装置１８から読み込
まれた音声データのパターンから、対応する単語を探し
出し、入力された音声を単語として認識する際に使用さ
れる。

【００２６】編集データ格納部１６６には、本実施形態
による編集処理を終了した要約のデータ、音声データ、
画像データがそれぞれ対応した状態で格納される。

【００２７】記憶媒体駆動装置１７は、ＣＰＵ１１１が
外部の記憶媒体からコンピュータプログラムや文章、音
声等を読み込むための駆動装置である。記憶媒体に記憶
されているコンピュータプログラムには、本実施形態の
編集処理装置により実行される各種処理のためのプログ
ラム、および、そこで使用される辞書、データ等も含ま
れる。ここで、記憶媒体とは、コンピュータプログラム
やデータ等が記憶される記憶媒体をいい、具体的には、
フロッピーディスク、ハードディスク、磁気テープ等の
磁気記憶媒体、メモリチップやＩＣカード等の半導体記
憶媒体、ＣＤ−ＲＯＭやＭＯ、ＰＤ（相変化書換型光デ
ィスク）等の光学的に情報が読み取られる記憶媒体、紙
カードや紙テープ等の用紙（および、用紙に相当する機
能を持った媒体）を用いた記憶媒体、その他各種方法で
コンピュータプログラム等が記憶される記憶媒体が含ま
れる。本実施形態の編集処理装置において使用される記
憶媒体としては、主として、ＣＤ−ＲＯＭやフロッピー
ディスクが使用される。記憶媒体駆動装置１７は、これ
らの各種記憶媒体からコンピュータプログラムを読み込
む他に、フロッピーディスクのような書き込み可能な記
憶媒体に対してＲＡＭ１１３や記憶装置１６に格納され
ているデータ等を書き込むことが可能である。

【００２８】本実施形態の編集処理装置では、制御部１
１のＣＰＵ１１１が、記憶媒体駆動装置１７にセットさ
れた外部の記憶媒体からコンピュータプログラムを読み
込んで、記憶装置１６の各部に格納（インストール）す
る。そして、本実施形態による編集処理等の各種処理を
実行する場合、記憶装置１６から該当プログラムをＲＡ
Ｍ１１３に読み込み、実行するようになっている。但
し、記憶装置１６からではなく、記憶媒体駆動装置１７
により外部の記憶媒体から直接ＲＡＭ１１３に読み込ん
で実行することも可能である。また、編集処理装置によ
っては、本実施形態の編集処理プログラム等を予めＲＯ
Ｍ１１２に記憶しておき、これをＣＰＵ１１１が実行す
るようにしてもよい。

【００２９】通信制御装置１８は、他のパーソナルコン
ピュータやワードプロセッサ等との間で各種形式のテキ
ストデータや、Ｗａｖデータ等の音声データ、ビットマ
ップデータ等の画像データ等、各種データの送受信を行
うことができるようになっている。入出力Ｉ／Ｆ１９
は、音声や音楽等の出力を行うスピーカ、表示装置１４
に表示された文章や記憶装置１６の文書格納部１６４に
格納された文章等の印刷を行うための印刷装置、音声デ
ータに伴って画像データを取得するための撮像装置、編
集後の音声データや、音声データとそれに伴う画像デー
タを出力する再生装置、等の各種機器を接続するための
インターフェースである。入出力Ｉ／Ｆ１９において接
続される印刷装置としては、レーザプリンタ、ドットプ
リンタ、インクジェットプリンタ、ページプリンタ、感
熱式プリンタ、熱転写式プリンタ、等の各種印刷装置が
使用される。

【００３０】音声出力装置２０は、音声データを電気信
号として出力する音声出力用ＩＣと、この音声出力用Ｉ
Ｃの出力をディジタル−アナログ変換するＤ／Ａコンバ
ータと、このＤ／Ａコンバータからのアナログの出力を
増幅するアンプとを備えている。そしてこのアンプの出
力端子にはスピーカが接続されており、音声データに対
応した音声が出力されるようになっているいる。

【００３１】次に、上述のような構成の編集処理装置に
よる編集処理について図面を参照して説明する。

【００３２】図２は、本実施形態による編集処理のメイ
ンの動作の流れを表したフローチャートである。本実施
形態による編集処理においては、図６に示すように、Ｃ
ＰＵ１１１は、まず、編集の対象となる音声データ及び
画像データを、それらのデータの作成時刻（録音や録画
の時刻）のデータとともに取得する（データ取得処理）
（ステップ１１）。音声データ及び画像データは、外部
の撮像装置によって撮像及び同時録音され、撮像装置内
のフラッシュメモリ等に記憶されているものを、入出力
Ｉ／Ｆ１９を介して取得する。または、通信制御装置１
８を介してインターネットやパソコン通信を介してダウ
ンロードしたり、ＦＤやＤＶＤ等の記憶媒体に記憶され
るものを、記憶媒体駆動装置１７を介して読み込んで取
得する。また、入出力Ｉ／Ｆ１９を介してＣＣＤカメラ
等の撮像装置から画像データを取得するとともに、マイ
ク１５から入力される音声を制御部内の入力音声管理部
において音声データに変換することによって取得しても
よい。取得した音声データはＲＡＭの音声データ格納エ
リア１１３１に記録時刻とともに格納する。また画像デ
ータは、ＲＡＭの画像データ格納エリア１１３５に記録
時刻とともに格納する。

【００３３】尚、入力音声管理部による音声から音声デ
ータへの変換は、例えば、次のようにして行われる。即
ち、入力音声管理部は、マイク１５から入力されるアナ
ログの音声信号をディジタル信号に変換するＡ／Ｄ変換
器、及び、ディジタル信号に変換された音声信号から入
力音声のパターンを作成するパターン作成部を備えてお
り、パターン作成部は、音声の周波数分布を分析するこ
とで、例えば、スペクトルや基本周波数の時系列情報を
特徴として抽出し、そのパターンを入力音声のデータと
する。また、時系列情報を統計的特徴（平均、標準偏
差、相関行列など）に変換した情報を音声データとして
もよい。更に、パワースペクトル、ＬＰＣ係数、ケプス
トラムの情報を音声データとしてもよい。

【００３４】音声データおよび画像データと、これらの
データに対応する時刻データとを取得すると、次にＣＰ
Ｕ１１１は、ステップ１１で取得した音声データについ
て音声認識処理を行う。図３は、音声認識処理の動作の
流れを表したフローチャートである。この図３に示すよ
うに、ＣＰＵ１１１は、音声認識処理においては、ＲＡ
Ｍに格納される音声データのパターンのうち、対応する
形態素が決まっていない部分であって対応する時刻の最
も早い部分から、音声認識辞書格納部１６５に格納され
るパターンと、順次パターンマッチングにより対比し、
音声データのパターンと、各形態素のパターンそれぞれ
に対する類似度を算出する（ステップ１３１）。

【００３５】次に、各形態素のパターンに対する類似度
から、音声データのパターンと類似度の最も大きい形態
素のパターンを検出する（ステップ１３３）。そして、
音声データは、検出した最も類似度の大きいパターンの
形態素であると特定し、この形態素を音声データの時刻
と対応させてＲＡＭの所定エリアに格納する（ステップ
１３５）。続いて、ＣＰＵ１１１は、ＲＡＭの音声デー
タ格納エリア１１３１の音声データのうち、ステップ１
３５で対応する形態素が確定していない部分があるかど
うかを調べ（ステップ１３７）、対応する形態素が確定
していない部分がある場合（ステップ１３７；Ｙ）に
は、ステップ１３１にリターンし、対応する形態素が確
定していない部分について、対応する時刻の最も早い部
分からパターンマッチングを行い、以下ＲＡＭの所定エ
リアの音声データについての全て対応する形態素が特定
されるまで、ステップ１３１からの処理を繰り返す。音
声データ格納エリア１１３１に格納される音声データ全
体について対応する形態素が確定した場合（ステップ１
３７；Ｎ）には、確定した形態素を対応する時刻の順に
並べ直し、音声認識結果として、時刻とともにＲＡＭの
所定エリアに格納する（ステップ１３９）。形態素を対
応する時刻に並べることによって、１または複数の文
が、音声認識結果として取得される。音声認識結果と時
刻とをＲＡＭの所定エリアに格納すると、ＣＰＵ１１１
は、音声認識処理を終了して、メインのルーチンへリタ
ーンする。

【００３６】音声認識処理に続いて、ＣＰＵ１１１は、
変換文章取得処理を行う（ステップ１５）。この変換文
章取得処理においては、ステップ１３の音声認識処理で
取得した音声認識結果について、自然言語処理に従って
解析を行い、特定された形態素が不自然な場合には、形
態素を特定し直し、音声認識結果を修正する。

【００３７】次に、ＣＰＵ１１１は、変換文章取得処理
において取得した文章について、段落毎に区分する区分
処理を行う（ステップ１７）。図４は、本実施形態にお
ける区分処理の流れを示すフローチャートである。この
図４に示すように、区分処理では、ＣＰＵ１１１は、必
要に応じて修正された音声認識結果（変換文章）を所定
の数の文毎に区切って小さな仮の段落（仮段落）毎にま
とめる（ステップ１７１）。そして、仮段落毎について
文書ベクトルを作成する（ステップ１７３）。この文書
ベクトルの作成については、特開平１１−４５２８８号
公報記載の技術等の、従来より公知の技術を用いること
ができる。

【００３８】図５は、各仮段落の文書ベクトルを作成す
る文書ベクトル作成処理の動作の一例を表したフローチ
ャートである。ＣＰＵ１１１は、文書ベクトルを作成す
る仮段落について、形態素解析を行って、自立語、名詞
句、複合名詞句等を含めた候補語（句）を抽出しＲＡＭ
１１３の所定の作業領域に格納する（ステップ１７３
１）。そして抽出した候補語（句）の仮段落中での出現
頻度、評価関数から、各候補語（句）重要度ｆ（ｘ）を
決定する（ステップ１７３３）。ここで、評価関数とし
ては、例えば、所定の重要語が予め指定されている場合
にはその重要語に対する重み付け、単語、名詞句、複合
名詞句等の候補語（句）の種類による重み付け等が使用
される。

【００３９】更にＣＰＵ１１１は、決定した重要度ｆ
（ｘ）の値から仮段落中のキーワードａ，ｂ，…を決定
する（ステップ１７３５）。そして、各キーワードの重
要度ｆ（ｘ）を要素として、文書ベクトルＶ＝（ｆ
（ａ），ｆ（ｂ），…）をＲＡＭ１１３の所定作業領域
に格納する（ステップ１７３５）。この文書ベクトルＶ
を求める処理を全ての仮段落について行う。

【００４０】全ての仮段落の文書に対して文書ベクトル
Ｖを求めた後、ＣＰＵ１１１は、時刻が互いに連続する
各仮段落同士の類似度ｓを求める（ステップ１７５）。
この仮段落どうしの類似度については、特開平１１−４
５２８８号公報記載の技術等の、従来より公知の技術を
用いることができる。本実施形態においては、各仮段落
間の類似度ｓを、両者の文書ベクトルｂｎと文書ベクト
ルｂｎ＋１間の角度に依存するコサインにより求める。
すなわち、両文書ベクトルｂｎとｂｎ＋１間の角度をｑ
とし、両文書ベクトルの内積をｂｎ・ｂｎ＋１とし、両
文書ベクトルの大きさをそれぞれ｜ｂｎ｜、｜ｂｎ＋１
｜とした場合、両文書ベクトルの類似度ｓは次の数式１
により求まる。

【００４１】

【数１】類似度ｓ＝ＣＯＳ（ｑ)＝（ｂｎ・ｂｎ＋１）
／（｜ｂｎ｜×｜ｂｎ＋１｜）

【００４２】この類似度ｓの値は−１≦ｓ≦１までの値
をとり、１に近いほど２つの仮段落の文書ベクトルが互
いに平行に近く、２つの仮段落どうしは似ていると考え
ることができる。

【００４３】次に、ＣＰＵ１１１は、算出した類似度ｓ
から、時刻において前後し、且つ類似度が高い仮段落ど
うしは類似しているとして同一の段落に纏めて、変換文
章を区分する（ステップ１７７）。図６は、時刻が連続
したＡからＧの７つの仮段落からなる変換文章につい
て、仮段落の類似度と段落区分との関係を示した図であ
る。図６においては、仮に類似度０．６以上の文書を類
似しているものとすると、図６（ａ）に示すように、
Ａ、Ｂ、Ｃ、Ｄの４文書は、全て類似度が０．６以上な
ので、１つの段落（Ｘ）となる。また、文書Ｅ、Ｆも類
似度ｓが０．９なので１つの段落（Ｙ）となる。文書Ｇ
は、類似している文書が存在しないので、（Ｚ）として
独自に段落を構成する。

【００４４】この実施の形態では、この段落の作成を類
似度が０．６以上としたが他の値、例えば、０．７、
０．８でもよく、これをユーザ側で設定できるようにし
てもよい。変換文章を段落に区分した後は、区分処理を
終了してメインのルーチンにリターンする。

【００４５】そして、変換文章を各段落に区分した後、
ＣＰＵ１１１は、変換文章の各段落について、要約を作
成する要約作成処理を行う（ステップ１９）。図７は、
要約作成処理の動作を表したフローチャートである。Ｃ
ＰＵ１１１は、まず要約作成処理を行う段落に含まれる
自立語、名詞句、複合名詞句等を含めた候補語（句）を
抽出しＲＡＭ１１３の所定作業領域に格納する（ステッ
プ１９１）。そして、抽出した候補語（句）の各文書群
中での出現頻度、評価関数等から、各候補語（句）重要
度ｆ（ｙ）を決定する（ステップ１９３）。ここで、評
価関数としては、例えば、所定の重要語が予め指定され
ている場合にはその重要語に対する重み付け、単語、名
詞句、複合名詞句等の候補語（句）の種類による重み付
け等が使用される。

【００４６】更にＣＰＵ１１１は、決定した重要度ｆ
（ｙ）等から、各文書群含まれる各センテンスに対する
重要度Ｆ（ｚ）を算出する（ステップ１９５）。そし
て、決定した各センテンスの重要度Ｆ（ｚ）が上位から
所定の要約比率（例えば、文書群の全文数の内の上位２
５％）以内に入る文、または重要度Ｆ（ｚ）が所定ラン
ク（例えば２位まで）に入る文を抽出する。そしてＣＰ
Ｕ１１１は、抽出した文を段落中での出現順に並べるこ
とで当該段落についての要約とし、この要約を、そのも
とになっている変換文章の各段落の時刻に対応して要約
格納エリア１１３４に格納する（ステップ１９７）。こ
の要約作成処理は、変換文章の全ての段落について行
う。全ての段落についての要約を作成すると、ＣＰＵ１
１１は、メインのルーチンにリターンする。

【００４７】各段落に対する要約の作成が終了するとＣ
ＰＵ１１１は、これらの要約を時刻順に表示装置１４に
表示し、キーボードやマウスからの入力によって、各段
落毎の要約の入れ換えや削除、複写を取得する。そし
て、入れ換え等に従って要約格納エリア１１３４の要約
を格納し直す（ステップ２１）。従って、対応する時刻
も時刻順から、入れ換えや削除、複写の入力に従って、
変更されたものとなる。

【００４８】そして、入れ替わった時刻順に従って音声
データ及び画像データを並べ替え（ステップ２３）、記
憶装置１６の編集データ格納部１６６に、要約、音声デ
ータ、及び画像データを並べ替えた順順序とともに格納
し（ステップ２５）、編集処理を終了する。これらの画
像データ、及び音声データは、キーボードやマウスから
の出力コマンドの入力によって、編集された順に同時に
出力され、記憶装置１６の記憶媒体に書き込まれたり、
音声出力装置２０及び表示装置１４から出力再生された
り、または、入出力Ｉ／Ｆ１９に接続された再生装置に
よって出力再生される。

【００４９】図８は、上述の編集処理装置を用いた編集
処理におけるデータの状態を説明する説明図である。編
集処理においては、まず、図８（ａ）に示すように、デ
ータ取得処理において、編集の対象となる音声データ及
び画像データが、それらのデータの作成時刻（録音や録
画の時刻）とともに取得される。図８の例においては、
音声及び映像が３つの内容Ｉ、ＩＩ、ＩＩＩについての
ものであり、Ｉの内容は時刻ｔｋ１ｂ〜ｔｋ１ｅに記録
され、対応する音声データが音声データ（１）、画像デ
ータが画像データ（Ａ）、ＩＩの内容は時刻ｔｋ２ｂ〜
ｔｋ２ｅに記録され、対応する音声データが音声データ
（２）、画像データが画像データ（Ｂ）、ＩＩＩの内容
は時刻ｔｋ３ｂ〜ｔｋ３ｅに記録され、対応する音声デ
ータが音声データ（３）、画像データが画像データ
（Ｃ）となっているとする。そして、図８（ｂ）に示す
ように、音声認識処理、変換文章取得処理によって、音
声データに対応する変換文章データ（イ）、（ロ）、
（ハ）が取得される。文書データは、図８（ｃ）に示す
ように、区分処理によって段落毎に区分され、また要約
作成処理によって、各段落毎の要約（イ’）〜（ハ’）
が作成される。

【００５０】要約作成処理が終了すると、図８（ｃ）に
示すように、表示装置１４に、各段落の要約が表示され
る。本例においては、表示装置には、各段落の要約に加
えて、その段落名（場面）、及び撮影開始時刻を０とそ
した場合の各段落の出力時間が各段落と同じ行に表示さ
れる。そして、これらのうち一行を指定し、ドラッグに
より入れ換えると、図８（ｄ）に示すように、この入れ
換え結果が表示装置１４に表示され、入れ換え結果に従
った順番で、要約データ、音声データ及び画像データ
が、出力時間とともに編集データ格納部１６６に格納さ
れる。

【００５１】このように、本実施形態では、音声データ
及び画像データをそれらの作成時刻とともに取得する。
そして、音声認識処理及び変換文章処理によって、取得
した音声データに対応したテキストデータを作成し、テ
キストデータをその内容に基づいて段落に区分し、テキ
ストデータと音声データ及び画像データとの対応をそれ
らの作成時刻から取得し、音声データ及び画像データを
内容毎に纏めて区分した。そして、テキストデータに基
づいて各区分の要約を作成し、要約を表示装置１４に表
示し、その順番を入れ換えや削除、複写に従って、音声
データ及び画像データの順番の入れ換え、削除、複写が
行われる。従って、本実施形態によると、音声データを
テキストデータに変換し、テキストデータを編集するこ
とによって音声データを編集できるので、編集の位置等
を容易に正確に指定することができる。本実施形態によ
ると、テキストデータは、音声データの音声を音声認識
により変換したものなので、テキストデータによって直
接音声データの内容を知ることができ、直感的に取り扱
うことができる。本実施形態によれば、音声データに基
づいて要約が作成され、音声データや画像データが内容
に従って区切られるため、データが多い場合であって
も、内容の区切りを容易に把握し、内容毎に出力順番を
入れ換えたり削除したり、複写したりすることができ
る。本実施形態によれば、音声データ及び画像データが
内容毎に区分され、内容の要約が表示されるので、内容
を容易に把握しながら、編集を行うことができる。本実
施形態によれば、要約の編集結果に従って、音声データ
及び画像データが編集されるので、膨大なデータについ
ても、容易に編集することができる。

【００５２】尚、上述のような編集処理装置は、２カ国
語放送等を作成する場合の映像と音声の同期処理、ニュ
ース番組やドキュメンタリー番組の作成においてニュー
スや取材の順番を入れ換える編集処理装置、自動音声応
答システムにおける応答内容の作成や変更、映画中等の
せりふを指定しての映像編集等、に使用することができ
る。

【００５３】次に、本発明の第２の実施形態について説
明する。尚、本実施形態において、図１〜図８に示す第
１の実施形態と同様の処理部、手段、装置、及び処理等
については、同一の符号を付し、説明は省略する。

【００５４】図９は、本発明の第２の実施形態による編
集処理の流れを示すフローチャートである。本実施形態
においては、編集処理装置は、ＲＡＭ１１３には、重要
語格納エリア、要約格納エリアは設けられていない。ま
た、編集処理においては、データ取得処理（ステップ１
１）においては、音声データと、その音声データの録音
時刻とを取得する。この時刻は、音声データの形態素毎
に対応して取得する。そして、図９に示すように、変換
文章取得処理の後は、変換文章を表示装置１４に表示
し、形態素毎の入れ換えや削除、複写を、キーボードや
マウスからの範囲及びコマンドの選択や入力によって取
得する（ステップ５７）。形態素毎の入れ換えや削除、
複写を取得すると、ＣＰＵ１１１は、これらの入力に従
って、対応する音声データを録音時刻から調べ、音声デ
ータを並べ替え、編集データ格納部１６６に格納し、編
集処理を終了する。

【００５５】図１０は、本実施形態の編集処理装置を用
いた編集処理におけるデータの状態を説明する説明図で
ある。図１０の例においては、データ取得処理（ステッ
プ１１）において、「今日私は、チョコレートを食べ
た。」という音声を録音した音声データを取得してい
る。そして、図１０（ａ）に示すように、音声認識処理
（ステップ１３）によって、取得した音声データのパタ
ーンに対応する形態素を取得する。図１０に示す例にお
いては、「今日は他誌は、チョコレートを食べた。」と
いう形態素が取得されたとする。形態素を取得する場
合、対応する音声データ時刻ｔ１、ｔ２、・・・ｔ１２
も形態素毎に取得する。そして、変換文章取得処理にお
いては、形態素を元になる音声データの時刻順に並べた
状態で自然言語処理によって、再び形態素を取得し、図
１０（ｂ）に示すように、形態素毎に区切って、変換文
章を取得する。図１０の例においては、自然言語処理を
加えることによって、「今日は他誌は」が「今日私は」
に訂正されている。そしてこの訂正に伴う形態素の変更
によって、形態素毎の対応時刻も変更されている。

【００５６】そして、ＣＰＵ１１１は、変換文章を、文
節毎に区切った状態で、表示装置１４に表示し、キーボ
ードやマウスからの入力によって、文節の入れ換えや削
除、複写を取得する。そして、図１０（ｃ）に示すよう
に、表示された変換文章の文節の入れ換えに従って、音
声データも順番の入れ換えまたは削除を行い、編集デー
タ格納部１６６に格納する。この音声データは、キーボ
ードやマウスからの出力コマンドの入力によって、編集
された順に同時に出力され、記憶装置１６の記憶媒体に
書き込まれたり、音声出力装置２０及び表示装置１４か
ら出力再生されたり、または、入出力Ｉ／Ｆ１９に接続
された再生装置によって出力再生される。

【００５７】この様に、本実施形態では、音声データを
その作成時刻とともに取得する。そして、音声認識処理
及び変換文章処理によって、取得した音声データに対応
したテキストデータを作成し、テキストデータをその内
容に基づいて文節に区分し、テキストデータと音声デー
タとの対応を文節毎にそれらの作成時刻から取得した。
そして、テキストデータに基づいて文章を表示装置１４
に表示し、文節毎の順番の入れ換えや削除、複写を取得
し、この入れ換えや削除、複写に従って、音声データの
順番の入れ換え、削除、複写を行う。従って、本実施形
態によると、音声データをテキストデータに変換し、テ
キストデータを編集することによって音声データを編集
できるので、編集の位置等を容易に正確に指定すること
ができる。本実施形態では、音声データの形態素毎に対
応時刻が取得され、また、テキストデータにおいても形
態素に対応して対応時刻が取得されており、対応時刻を
介して、形態素単位で、音声データとテキストデータと
の対応を取得することができる。そして、テキストデー
タを入れ換えると、この入れ換えに従って、音声データ
が形態素単位で並べ替えられる。従って、形態素単位で
音声データを編集することができる。本実施形態によれ
ば、テキストデータは、音声データの音声を音声認識に
より変換したものなので、テキストデータによって直接
音声データの内容を知ることができ、直感的に取り扱う
ことができる。

【００５８】このような、音声データを編集する編集処
理装置は、思いついた事柄をレコーダ等に吹き込み、後
にひとつのまとまりのある文章に編集する場合に使用す
ることができる。また、語学学習者や幼児が文節の組み
替えによって、文法を学習する学習機として、また、文
章作成ゲームのゲーム機として使用することができる。

【００５９】尚、本発明は、上述の実施形態に限定され
るものではなく、本発明の趣旨を逸脱しない限りにおい
て適宜変更が可能である。例えば、上述の各実施形態に
おいては編集処理装置としてコンピュータを用いている
が、コンピュータに限定されるものではなく、編集処理
のための専用機でもよい。上述の各実施形態において
は、音声認識処理に続いて、自然言語処理によって形態
素を取得し直す変換文章取得処理を行っているが、予め
自然言語処理に基づいて形態素を取得した音声認識結果
を得て、変換文章取得処理を行わないようにしてもよ
い。また、変換文章取得処理においては、形態素の区切
りをユーザが指定することによって、新たに形態素を取
得し直すようにしてもよい。

【００６０】上述の第１の実施形態においては、ＣＰＵ
１１１に音声認識部が設けられ、音声の入力によって音
声データを取得できるようになっているが、音声認識部
を備えず、音声データを取得するものとすることもでき
る。上述の第１の実施形態においては、類似度が所定以
上どうしであって、時刻が連続している仮段落を纏めて
段落を形成しているが、時刻は考慮せず、類似度が所定
以上であるものについて全て仮段落を纏めて段落として
もよい。また、段落の区分は、仮段落の類似度によって
決定しなくてもよく、例えば、変換文章全体から重要語
を抽出し、最初の文と２つ目の文、最初から３つ目の文
まで、・・・というように、重要語の重要度を求めてい
き、重要語のうち最も重要度の高い重要語（最重要語）
が切り替わる位置を段落の変わり目として、各段落の区
分を求めてもよい。上述の第１の実施形態においては、
各仮段落間の類似度ｓを、両者の文書ベクトルｂｎと文
書ベクトルｂｎ＋１間の角度に依存するコサインにより
求めているが、類似度はこれに限られるものではなく、
例えば、各仮段落の最も需要度の高い候補語のみについ
て、同一の場合には類似度を１、異なる場合には類似度
を０とする等としてもよい。

【００６１】上述の第１の実施形態においては、各段落
毎に要約を作成し、要約を参照して各段落を入れ換えた
り削除、複写する編集ができるようになっているが、各
段落の変換文章そのままを表示装置１４に表示して、段
落毎の他、文毎に入れ換えや削除、複写をしてもよい。
また、第２の実施形態を兼ね備えることによって文節、
形態素毎に入れ換えや削除、複写をできるようにしても
よい。

【００６２】上述の実施形態及び各変形例においては、
仮名漢字変換辞書格納部１６１、文書格納部１６４、音
声認識辞書格納部１６５、編集データ格納部１６６が全
てプログラム格納部１６２と同じ記憶装置に設けられて
いるが、例えば、編集データ格納部１６６はフロッピー
ディスクや光磁気ディスク等、記憶媒体駆動装置の記憶
媒体に設ける等、これらのうちの一部または全てを他の
手段に設けてもよい。

【００６３】上述の実施形態及び各変形例においては、
入力音声は日本語となっているが、あらゆる言語につい
て、音声データを取得し、編集処理を行うことが可能で
ある。その場合、対象となる言語用の形態素解析アルゴ
リズム等を使用するといった、本発明の構成には影響の
ない部分を変更するだけでよい。

【００６４】尚、以上の実施形態において説明した、各
装置、各部、各動作、各処理等に対しては、それらを含
む上位概念としての各手段（〜手段）により、実施形態
を構成することが可能である。例えば、「ＣＰＵ１１１
は、ステップ１１で取得した音声データについて音声認
識処理を行う。」との記載に対してＣＰＵ１１１とは別
途、音声認識処理を行う音声認識手段を構成するように
してもよい。同様に、その他各種動作に対して「〜（動
作）手段」等の上位概念で実施形態を構成するようにし
てもよい。

【００６５】

【発明の効果】以上説明したように、本発明によれば、
音声認識結果から認識文章を作成して表示し、表示され
た認識文章を編集することで音声データの編集を行うよ
うにしたので、音声データの編集を容易に短時間で行う
ことが可能である。

【図面の簡単な説明】

【図１】本発明の編集処理装置の第１の実施形態であ
り、本発明の編集処理プログラムが記憶された記憶媒体
の第１の実施形態の該プログラムが読み取られた、コン
ピュータの構成を表したブロック図である。

【図２】図１の実施形態による編集処理のメインの動作
の流れを表したフローチャートである。

【図３】図１の実施形態による音声認識処理の動作の流
れを表したフローチャートである。

【図４】図１の実施形態における区分処理の流れを示す
フローチャートである。

【図５】各仮段落の文書ベクトルを作成する文書ベクト
ル作成処理の動作の一例を表したフローチャートであ
る。

【図６】時刻が連続したＡからＧの７つの仮段落からな
る変換文章について、仮段落の類似度と段落区分との関
係を示した図である。

【図７】図１の実施形態における要約作成処理の動作を
表したフローチャートである。

【図８】図１の実施形態の編集処理におけるデータの状
態を説明する説明図である。

【図９】本発明の第２の実施形態による編集処理の流れ
を示すフローチャートである。

【図１０】図９の実施形態による編集処理におけるデー
タの状態を説明する説明図である。

【符号の説明】

１１制御部１１２ＲＯＭ１１３ＲＡＭ１１３１音声データ格納エリア１１３２変換文章格納エリア１１３４要約格納エリア１１３５画像データ格納エリア１２キーボード１３マウス１４表示装置１５マイク１６記憶装置１６１仮名漢字変換辞書格納部１６２プログラム格納部１６４文書格納部１６５音声認識辞書格納部１６６編集データ格納部１７記憶媒体駆動装置１８通信制御装置１９入出力Ｉ／Ｆ２０音声出力装置

フロントページの続き (56)参考文献特開平３−80782（ＪＰ，Ａ) 特開平11−85456（ＪＰ，Ａ) 特開平８−152897（ＪＰ，Ａ) 特開平10−28068（ＪＰ，Ａ) 特開平11−45288（ＪＰ，Ａ) 岩崎，古井，ニュース音声からの話題抽出法の検討，日本音響学会平成10年度秋季研究発表会講演論文集，日本，1998 年９月，１−１−14，ｐ．27−28 堀，岩崎，古井，話題語に着目したニュース音声の要約法の検討，日本音響学会1999年秋季研究発表会講演論文集，日本，1999年９月，３−１−11，ｐ. 117−118 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/00 G10L 15/22 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】音声認識手段による音声認識結果を、認
識の対象となった音声データとともに取得する認識結果
取得手段と、前記認識結果取得手段で取得した前記音声認識結果に基
づいて認識文章を作成する文章作成手段と、前記文章作成手段で作成された前記認識文章と前記認識
結果取得手段で取得した前記音声データとの対応を前記
認識文章の所定単位毎に取得する対応取得手段と、前記所定単位毎に取得した前記認識文章を表示する表示
手段と、前記表示手段に表示された前記認識文章を、前記所定単
位で入れ変え、削除、又は複写の指示を入力する編集指
示入力手段と、前記編集指示入力手段からの入力に応じて、前記文章作
成手段で取得された前記認識文章を前記所定単位で、入
れ換え、削除、又は複写により編集する文章編集手段
と、前記文書編集手段の編集結果に従って、前記対応取得手
段で対応された、当該編集された前記認識文章に対応す
る前記音声データを入れ換え、削除、又は複写により編
集するデータ編集手段とを備えることを特徴とする編集
処理装置。
【請求項２】前記所定単位は、音素、単音節、単語、
形態素、文節、及び文、のうちのいずれかであることを
特徴とする請求項１に記載の編集処理装置。
【請求項３】前記文章作成手段は、前記認識結果取得
手段で取得した音声認識結果を文章に変換する変換手段
と、前記変換手段により取得された変換文章を、複数の
段落の段落に区分する区分手段とを備え、前記所定単位は、前記区分手段で区分された前記段落で
あることを特徴とする請求項１に記載の編集処理装置。
【請求項４】前記文章作成手段は、前記認識結果取得
手段で取得した音声認識結果を文章に変換する変換手段
と、前記変換手段により取得された変換文章を、複数の
段落の段落に区分する区分手段と、前記区分手段で区分
された前記段落それぞれを要約する要約手段とを備え、
前記要約手段により取得された各段落の前記要約からな
る文章を認識文書として取得し、前記対応取得手段は、前記段落を前記所定単位として、
前認識記文章と前記音声データとの対応を取得すること
を特徴とする請求項１に記載の編集処理装置。
【請求項５】前記認識結果取得手段は、画像データに
付加された音声データを前記画像データとともに取得
し、前記対応取得手段は、前記文章作成手段で作成された前
記認識文章と、前記音声データ及び前記画像データとの
所定単位毎の対応を取得し、前記データ編集手段は、前記文書編集手段の編集結果に
従って、前記対応に基づいて、前記音声データとともに
前記画像データを編集することを特徴とする請求項１か
ら請求項４のうちのいずれか１の請求項に記載の編集処
理装置。
【請求項６】音声認識手段による音声認識結果を、認
識の対象となった音声データとともに取得する認識結果
取得機能と、前記認識結果取得機能で取得した前記音声認識結果に基
づいて認識文章を作成する文章作成機能と、前記文章作成機能で作成された前記認識文章と前記認識
結果取得機能で取得した前記音声データと対応を前記認
識文章の所定単位毎に取得する対応取得機能と、前記所定単位毎に取得した前記認識文章を表示する表示
機能と、前記表示機能で表示された前記認識文章を、前記所定単
位で入れ変え、削除、又は複写の指示を入力する編集指
示入力機能と、前記編集指示入力機能による入力に応じて、前記文章作
成機能で取得された前記認識文章を前記所定単位で、入
れ換え、削除、又は複写により編集する文章編集機能
と、前記文書編集機能の編集結果に従って、前記対応取得機
能で対応された、当該編集された前記認識文章に対応す
る前記音声データを入れ換え、削除、又は複写により編
集するデータ編集機能とをコンピュータに実現させるた
めのコンピュータ読み取り可能な編集処理プログラムが
記憶された記憶媒体。