JP2001155467A - 編集処理装置、及び編集処理プログラムが記憶された記憶媒体 - Google Patents

編集処理装置、及び編集処理プログラムが記憶された記憶媒体

Info

Publication number
JP2001155467A
JP2001155467A JP33704199A JP33704199A JP2001155467A JP 2001155467 A JP2001155467 A JP 2001155467A JP 33704199 A JP33704199 A JP 33704199A JP 33704199 A JP33704199 A JP 33704199A JP 2001155467 A JP2001155467 A JP 2001155467A
Authority
JP
Japan
Prior art keywords
sentence
editing
data
unit
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP33704199A
Other languages
English (en)
Other versions
JP3444831B2 (ja
Inventor
Hatsuko Ukikawa
初子 浮川
Hiroshi Morimoto
寛 森本
Koichi Azuma
宏一 東
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JustSystems Corp
Original Assignee
JustSystems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JustSystems Corp filed Critical JustSystems Corp
Priority to JP33704199A priority Critical patent/JP3444831B2/ja
Publication of JP2001155467A publication Critical patent/JP2001155467A/ja
Application granted granted Critical
Publication of JP3444831B2 publication Critical patent/JP3444831B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Management Or Editing Of Information On Record Carriers (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 音声データの編集を容易に短時間で行うこと
のできる編集処理装置を提供すること。 【解決手段】 編集処理装置は、音声認識による音声認
識結果を音声データ、及びその録音時刻とともに取得す
る(S11、S13)。そして音声認識結果に基づいて
文章を作成し(S15)、段落毎に対応する録音時間を
取得するとともに段落毎の要約を作成する(S17、S
19)。そして要約を表示装置に表示し、段落単位での
入れ替えや削除等を取得する(S21)。続いて、段落
に対応する録音時刻から、入れ替えされたり削除された
段落に対応する音声データを把握し、音声データも表示
された文章の入れ替えや削除に従って入れ替え及び削除
を行う(S23)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、編集処理装置、及
び編集処理プログラムが記憶された記憶媒体に関し、更
に詳細には、音声データを容易に編集可能な編集処理装
置、及び編集処理プログラムが記憶された記憶媒体に関
する。
【0002】
【従来の技術】従来、音声データを編集処理装置、及び
編集処理プログラムが記憶された記憶媒体による編集処
理によって編集する場合には、実際に音声を再生するこ
とによって編集したい音声データの位置を検出したり、
音声データとともにタイムレコードを記録しておき、タ
イムレコードを目安にして編集したい位置を検出してい
る。そして、音声やタイムレコードを目安にして、音声
データの波形等を扱って手動で音声データを編集してい
る。
【0003】
【発明が解決しようとする課題】しかし、一連の音声デ
ータを区切って編集した位置を指定するためには、微妙
なタイミングでの操作が必要であり、熟練を必要とする
問題点がある。また、タイムレコード等の、音声以外の
目安を使用する場合には、音声データを取り扱うため、
直感的な取り扱いができない問題点がある。
【0004】尚、音声データを伴う映像データを編集す
る編集処理においては、音声データとを文字データに変
換して表示し、文字データを利用して映像データを編集
する技術が提案されている(特開平9−130736号
公報)。この編集処理においては、音声データを変換し
た文字データによって編集箇所を検出する。そのため、
音声の再生やタイムレコードを目安にするよりも容易に
編集位置を探すことができる。音声データとしては、撮
像時の音声のデータや、撮像時に編集用に入力した音声
のデータが使用される。しかし、映画やニュースでは、
撮像時の音声のデータは膨大となるため、その音声デー
タを文字データに変換しても、文字データの量が多く、
編集箇所を検出するのは時間がかかる場合がある。ま
た、編集用の音声のデータを使用する場合には、その音
声を入力するための手間がかかる問題点がある。更に、
この技術では、編集位置の検索以外については、従来と
同様に音声データや映像データを手動で取り扱うことで
行われ、手間が改善されていない問題点がある。この技
術では、文字データを編集することはできず、文字デー
タの編集によって音声データが編集される訳ではない。
【0005】本発明は、上述のような課題を解決するた
めになされたもので、音声データの編集を容易に短時間
で行うことのできる編集処理装置、及び編集処理プログ
ラムが記憶された記憶媒体を提供することを目的とす
る。
【0006】
【課題を解決するための手段】上記目的を達成するため
に、請求項1に記載の発明は、音声認識手段による音声
認識結果を、認識の対象となった音声データとともに取
得する認識結果取得手段と、前記認識結果取得手段で取
得した前記音声認識結果に基づいて認識文章を作成する
認識文章作成手段と、前記文章作成手段で作成された前
記認識文章と前記認識結果取得手段で取得した前記音声
データとの対応を前記認識文章の所定単位毎に取得する
対応取得手段と、前記文章作成手段で取得された前記認
識文章を前記所定単位で編集する文章編集手段と、前記
文書編集手段の編集結果に従って、前記対応に基づい
て、前記音声データを編集するデータ編集手段とを備え
る編集処理装置を提供することにより前記目的を達成す
るものである。
【0007】上述の音声認識結果は、音素、単音節、単
語、形態素、等、通常の音声認識手段(音声認識装置)
によって、音声波形等の音声データを音声認識辞書と照
合し取得される音声認識結果、またはこれらを仮名漢字
変換したものである。この仮名漢字変換は、自然言語処
理に基づいた解析を加えて変換したものとすることがで
きる。また、音声認識結果は、外部の音声認識装置によ
る音声認識結果であっても、本編集処理装置に配設され
た音声認識部による結果であってもよい。外部の音声認
識装置による音声認識結果は、I/Oインターフェース
を介して取得されたものであっても、フロッピーディス
クやフラッシュメモリ等の各種記憶媒体や、インターネ
ット及びパソコン通信等の公衆回線や専用回線を介して
取得されたものであってもよい。上記文章作成手段は、
前記音声認識結果によって取得された音素、単音節、単
語、形態素を仮名漢字変換して認識文章とするものとす
ることができる。作成する文章は、1つの文であって
も、複数の文から構成されたものであってもよい。ま
た、音声認識装置への音声入力時に、「次の段落」等の
音声によって段落に区分されて複数の段落に構成された
ものであってもよい。また、音声認識結果として仮名漢
字変換語のデータを取得した場合には、このまま文章と
したり、取得したデータに独自の自然言語処理等による
分析を加えて再度仮名漢字変換し直した文章とするもの
であってもよい。上記対応取得手段は、音声認識結果を
取得した先の音声認識手段から、音声認識結果と音声デ
ータとの対応を取得する。この対応は、音声認識結果
と、音声データとのそれぞれついて、所定時を基準とし
た時間を介しての対応とすることができる。例えば、音
声認識結果の所定単位である「わたくしは」が、認識開
始後0.7秒から1.1秒までの間であった場合には、
音声データのうち認識開始後0.7から1.1秒までの
部分が、認識結果である「わたくしは」に対応している
とする。対応の前記所定単位は、音声認識時の単位と同
じ細かさでもよいが、音声認識の単位のまとまりであっ
てもよい。たとえば、単語毎に音声認識結果が取得され
た場合であっても、対応は、認識された単語が集合して
形成された文節や文、段落毎に、音声データとの対応が
取得されるようにしてもよい。
【0008】請求項2に記載の発明は、請求項1に記載
の編集処理装置において、前記所定単位は、音素、単音
節、単語、形態素、文節、及び文のうちのいずれかであ
る編集処理装置を提供することにより前記目的を達成す
るものである。
【0009】請求項3に記載の発明は、前記文章作成手
段は、前記認識結果取得手段で取得した音声認識結果を
文章に変換する変換手段と、前記変換手段により取得さ
れた変換文章を、複数の段落の段落に区分する区分手段
とを備え、前記所定単位は、前記区分手段で区分された
前記段落である請求項1に記載の編集処理装置を提供す
ることにより前記目的を達成するものである。前記区分
手段は、例えば、変換手段で取得された変換文章中に頻
出する自立語等を重要語(キーワード)として複数調べ
出し(重要語取得手段)、最も出現頻度の高い重要語が
切り替わる位置を段落の分け目として段落区分を取得す
る(区分決定手段)ものとすることができる。また、前
記区分手段は、所定の数の文のまとまり毎に1または複
数の重要語を調べ出し、所定のまとまり毎に、そのまと
まりの中でもっとも重要語の出現頻度の高い重要文(要
約)を選び出し、重要語どうしの関連等から各重要文ど
うしの類似度を算出し、類似度が所定以上の重要文を含
むまとまりどうしは同一の段落とし、類似度が低いまと
まりどうしの間で段落が変わるとして区分するものとす
ることもできる。また、前記区分手段は、「次に」「さ
て、」等の所定の1または複数の接続詞その他の単語
(特定語から後は新しい段落としたり、「以上」「終わ
り」「お伝えしました」等の特定の1または複数の単語
(特定語)の後は、新しい段落とする等、特定語を検出
し(特定語検出手段)、この特定語に基づいて文書を段
落に区分するものとすることもできる。更に、前記区分
手段は、音声認識時に、「新しい段落」等の、段落区分
のための音声が入力されたものを認識して段落が形成さ
れている場合には、この段落をそのまま認識文章の段落
としてもよい。
【0010】請求項4に記載の発明は、前記文章作成手
段は、前記認識結果取得手段で取得した音声認識結果を
文章に変換する変換手段と、前記変換手段により取得さ
れた変換文章を、複数の段落の段落に区分する区分手段
と、前記区分手段で区分された前記段落それぞれを要約
する要約手段とを備え、前記要約手段により取得された
各段落の前記要約からなる文章を認識文書として取得
し、前記対応取得手段は、前記段落を前記所定単位とし
て、前認識記文章と前記音声データとの対応を取得する
請求項1に記載の編集処理装置を提供することにより前
記目的を達成する。前記要約手段としては、変化文章中
から重要語(キーワード)を検出し(重要語検出手
段)、各段落中から重要語の出現頻度の大きな1または
複数の文等を重要文として選択し(文選択手段)、これ
らの文をその文を含む段落順にならべて(文整列手段)
要約とすることができる。
【0011】請求項5に記載の発明は、前記認識結果取
得手段は、画像データに付加された音声データを前記画
像データとともに取得し、前記対応取得手段は、前記文
章作成手段で作成された前記認識文章と、前記音声デー
タ及び前記画像データとの所定単位毎の対応を取得し、
前記データ編集手段は、前記文書編集手段の編集結果に
従って、前記対応に基づいて、前記音声データとともに
前記画像データを編集する請求項1から請求項4のうち
のいずれか1の請求項に記載の編集処理装置を提供する
ことにより前記目的を達成するものである。
【0012】請求項6に記載の発明は、音声認識手段に
よる音声認識結果を、認識の対象となった音声データと
ともに取得する認識結果取得機能と、前記認識結果取得
機能で取得した前記音声認識結果に基づいて認識文章を
作成する認識文章作成機能と、前記文章作成機能で作成
された前記認識文章と前記認識結果取得機能で取得した
前記音声データとの対応を前記認識文章の所定単位毎に
取得する対応取得機能と、前記文章作成機能で取得され
た前記認識文章を前記所定単位で編集する文章編集機能
と、前記文書編集機能の編集結果に従って、前記対応に
基づいて、前記音声データを編集するデータ編集機能
と、をコンピュータに実現させるためのコンピュータ読
み取り可能な編集処理プログラムが記憶されたことを特
徴とする記憶媒体を提供することにより前記目的を達成
するものである。また、前記認識結果取得機能と、前記
認識文章作成機能と、前記対応取得機能と、文章編集機
能と、前記データ編集機能と、を実現するための編集処
理プログラム、編集処理プログラム伝送媒体、編集処理
プログラム搬送波、編集処理プログラム信号、またはプ
ログラム製品としてもよい。ここで、プログラム製品に
は、編集処理プログラムによる前記各機能を実現する記
憶媒体、サーバシステムコンピュータ、及びコンピュー
タシステム等を含む。
【0013】請求項6に記載の発明は、音声認識手段に
よる音声認識結果を、認識の対象となった音声データと
ともに取得する認識結果取得機能と、前記認識結果取得
機能で取得した前記音声認識結果に基づいて認識文章を
作成する認識文章作成機能と、前記文章作成機能で作成
された前記認識文章と前記認識結果取得機能で取得した
前記音声データとの対応を前記認識文章の所定単位毎に
取得する対応取得機能と、前記文章作成機能で取得され
た前記認識文章を前記所定単位で編集する文章編集機能
と、前記文書編集機能の編集結果に従って、前記対応に
基づいて、前記音声データを編集するデータ編集機能
と、をコンピュータに実現させるためのコンピュータ読
み取り可能な編集処理プログラムであって、且つ、前記
所定単位は、音素、単音節、単語、形態素、文節、及び
文、のうちのいずれかである編集処理プログラムが記憶
される記憶媒体とすることができる。また、前記編集処
理プログラム、編集処理プログラム伝送媒体、編集処理
プログラム搬送波、編集処理プログラム信号、またはプ
ログラム製品とすることができる。
【0014】請求項6に記載の発明は、音声認識手段に
よる音声認識結果を、認識の対象となった音声データと
ともに取得する認識結果取得機能と、前記認識結果取得
機能で取得した前記音声認識結果に基づいて認識文章を
作成する認識文章作成機能と、前記文章作成機能で作成
された前記認識文章と前記認識結果取得機能で取得した
前記音声データとの対応を前記認識文章の所定単位毎に
取得する対応取得機能と、前記文章作成機能で取得され
た前記認識文章を前記所定単位で編集する文章編集機能
と、前記文書編集機能の編集結果に従って、前記対応に
基づいて、前記音声データを編集するデータ編集機能
と、をコンピュータに実現させるためのコンピュータ読
み取り可能な編集処理プログラムであって、且つ、前記
文章作成機能は、前記認識結果取得機能で取得した音声
認識結果を文章に変換する変換機能と、前記変換機能に
より取得された変換文章を、複数の段落の段落に区分す
る区分機能とを備え、前記所定単位は、前記区分機能で
区分された前記段落である編集処理プログラムが記憶さ
れた記憶媒体とすることができる。また、前記編集処理
プログラム、編集処理プログラム伝送媒体、編集処理プ
ログラム搬送波、編集処理プログラム信号、またはプロ
グラム製品とすることができる。前記編集処理プログラ
ム、編集処理プログラム伝送媒体、編集処理プログラム
搬送波、編集処理プログラム信号、またはプログラム製
品は、音声入力手段を備えたコンピュータに、音声入力
手段により入力された音声を認識する音声認識機能を実
現させるものとすることができる。
【0015】請求項6に記載の発明は、音声認識手段に
よる音声認識結果を、認識の対象となった音声データと
ともに取得する認識結果取得機能と、前記認識結果取得
機能で取得した前記音声認識結果に基づいて認識文章を
作成する認識文章作成機能と、前記文章作成機能で作成
された前記認識文章と前記認識結果取得機能で取得した
前記音声データとの対応を前記認識文章の所定単位毎に
取得する対応取得機能と、前記文章作成機能で取得され
た前記認識文章を前記所定単位で編集する文章編集機能
と、前記文書編集機能の編集結果に従って、前記対応に
基づいて、前記音声データを編集するデータ編集機能
と、をコンピュータに実現させるためのコンピュータ読
み取り可能な編集処理プログラムであって、且つ、前記
文章作成機能は、前記認識結果取得機能で取得した音声
認識結果を文章に変換する変換機能と、前記変換機能に
より取得された変換文章を、複数の段落の段落に区分す
る区分機能と、前記区分機能で区分された前記段落それ
ぞれを要約する要約機能とを備え、前記要約機能により
取得された各段落の前記要約からなる文章を認識文書と
して取得し、前記対応取得機能は、前記段落を前記所定
単位として、前認識記文章と前記音声データとの対応を
取得する編集処理プログラムが記憶された記憶媒体とす
ることができる。また、前記編集処理プログラム、編集
処理プログラム伝送媒体、編集処理プログラム搬送波、
編集処理プログラム信号、またはプログラム製品とする
ことができる。
【0016】請求項6に記載の発明は、音声認識手段に
よる音声認識結果を、認識の対象となった音声データと
ともに取得する認識結果取得機能と、前記認識結果取得
機能で取得した前記音声認識結果に基づいて認識文章を
作成する認識文章作成機能と、前記文章作成機能で作成
された前記認識文章と前記認識結果取得機能で取得した
前記音声データとの対応を前記認識文章の所定単位毎に
取得する対応取得機能と、前記文章作成機能で取得され
た前記認識文章を前記所定単位で編集する文章編集機能
と、前記文書編集機能の編集結果に従って、前記対応に
基づいて、前記音声データを編集するデータ編集機能
と、をコンピュータに実現させるためのコンピュータ読
み取り可能な編集処理プログラムであって、且つ、前記
認識結果取得機能は、画像データに付加された音声デー
タを前記画像データとともに取得し、前記対応取得機能
は、前記文章作成機能で作成された前記認識文章と、前
記音声データ及び前記画像データとの所定単位毎の対応
を取得し、前記データ編集機能は、前記文書編集機能の
編集結果に従って、前記対応に基づいて、前記音声デー
タとともに前記画像データを編集する編集処理プログラ
ムが記憶された記憶媒体とすることができる。また、前
記編集処理プログラム、編集処理プログラム伝送媒体、
編集処理プログラム搬送波、編集処理プログラム信号、
またはプログラム製品とすることができる。
【0017】
【発明の実施の形態】以下、本発明の編集処理装置、及
び編集処理プログラムが記憶された記憶媒体の好適な実
施の形態について、図1から図10を参照して詳細に説
明する。図1は、本発明の編集処理装置の第1の実施形
態であり、本発明の編集処理プログラムが記憶された記
憶媒体の第1の実施形態の該プログラムが読み取られ
た、コンピュータの構成を表したブロック図である。こ
の図1に示すように、編集処理装置(コンピュータ)
は、装置全体を制御するための制御部11を備えてい
る。この制御部11には、データバス等のバスライン2
1を介して、入力装置としてのキーボード12やマウス
13、表示装置14、音声認識装置の一部としてのマイ
ク15、記憶装置16、記憶媒体駆動装置17、通信制
御装置18、入出力I/F19、及び音声出力装置20
が接続されている。
【0018】制御部11は、CPU111、ROM11
2、RAM113を備えており、CPUがRAMをワー
キングエリアとしてROMに格納されたプログラムを実
行することによって、キーボードから入力された仮名文
字列を漢字混り文に変換する仮名漢字変換処理、マイク
15からの音声入力等によって音声データを取得する音
声データ取得処理、音声データを音声認識辞書と比較対
照して形態素分析を行って音声認識結果を取得する音声
認識処理、音声認識処理や外部から入力された音声認識
結果を、認識の対象となった音声データとともに取得す
る認識結果取得処理、前記認識結果取得処理で取得した
音声認識結果を文章に変換する変換処理、前記変換処理
により取得された変換文章を、複数の段落に区分する区
分処理、区分処理で区分された前記段落それぞれを要約
する要約処理、要約処理により取得された各段落の前記
要約からなる文章を認識文書として取得する認識文書取
得処理、前記段落を前記所定単位として、前認識記文章
と前記音声データとの対応を取得する対応取得処理、要
約を各段落毎に編集する文章編集処理、文書編集処理の
編集結果に従って、前記対応に基づいて、前記音声デー
タを編集するデータ編集処理、音声データや編集処理に
よって編集された音声データに基づいて音声出力装置2
0のスピーカから音声を出力する音声出力処理の各処理
を行う。ROM112は、CPU111が各種制御や演
算を行うための各種プログラムやデータが予め格納され
たリードオンリーメモリである。
【0019】RAM113は、CPU111にワーキン
グメモリとして使用されるランダムアクセスメモリであ
る。このRAM113には、本実施形態による編集処理
を行うためのエリアとして、マイク15から入力された
音声の音声データ、通信制御装置18や記憶媒体駆動装
置17から入力された音声データが、音声認識開始時か
らの時刻とともに格納される音声データ格納エリア11
31、音声データに形態素分析を行った形態素を解析し
て文章化した変換文章が形態素毎の音声認識開始時から
の時刻ともに格納される変換文章格納エリア1132、
変換文章の段落毎に抽出された重要文を、対応する各段
落の変換文章の音声認識開始からの時間とともに格納す
る要約格納エリア1134、入出力I/F19を介して
外部の撮像装置から入力された画像の画像データ、通信
制御装置18や記憶媒体駆動装置17から前記音声デー
タに対応する画像データが、時刻とともに格納される画
像データ格納エリア1135、その他の各種エリアが確
保されるようになっている。
【0020】キーボード12は、かな文字を入力するた
めのかなキーやテンキー、各種機能を実行するための機
能キー、カーソルキー、等の各種キーが配置されてい
る。マウス13は、ポインティングデバイスであり、表
示装置14に表示される文書中の一部を指定したり、表
示装置14に表示されたアイコンやコマンドをクリック
等によって選択し、対応する機能を指定する入力装置で
ある。このキーボード12やマウス13は、編集手段の
一部として機能し、キーボード12からの入力やマウス
13によるポインティングによって、表示装置14に表
示される重要文を並べ替えたり、削除する等の編集を行
う。
【0021】表示装置14は、例えばCRTや液晶ディ
スプレイ等が使用される。この表示装置14には、外部
からの音声データを文章化した変換文章の要約が表示さ
れ、要約文表示手段として機能する。また、表示装置1
4は、表示された要約を、要約文単位で、キーボードか
らの入力やマウス操作によって編集した編集要約を表示
する編集要約表示手段としても機能する。
【0022】マイク15は、制御部11内の音声認識部
(音声認識手段)において音声認識の対象となる音声が
入力される音声入力手段として機能する。マイク15か
らの音声は、制御部11内の音声認識部により単語とし
て認識される。そして、編集手段の一部として機能し、
表示装置14に要約を表示させたり、要約文の入れ換え
や削除、複写等の編集操作を行うことができるようにな
っている。このマイク15は、例えば音楽編集等の、本
実施形態のコンピュータにおいて実行される他のプログ
ラムにおいて必要な音声入力手段としても機能するもの
とすることもできる。また、入力音声を的確に収集する
ために指向性のある専用のマイクとしてもよい。更に、
音声出力装置として図示しないスピーカ(イヤホン)を
備え、このスピーカとマイク15とでハンズフリーユニ
ットを形成させ、入力音声を確認しながら音声入力がで
きるようにしてもよい。
【0023】記憶装置16は、読み書き可能な記憶媒体
と、その記憶媒体に対してプログラムやデータ等の各種
情報を読み書きするための駆動装置で構成されている。
この記憶装置16に使用される記憶媒体としては、主と
してハードディスクが使用されるが、後述の記憶媒体駆
動装置17で使用される各種記憶媒体のうちの読み書き
可能な記憶媒体を使用するようにしてもよい。記憶装置
16は、仮名漢字変換辞書格納部161、プログラム格
納部162、文書格納部164、音声認識辞書格納部1
65、編集データ格納部166及び図示しないその他の
格納部(例えば、この記憶装置16内に格納されている
プログラムやデータ等をバックアップするための格納
部)等を有している。
【0024】プログラム格納部162には、仮名漢字変
換辞書格納部に格納される仮名漢字変換辞書を使用して
入力された仮名文字列を漢字混り文に変換する仮名漢字
変換プログラム、マイク15からの音声入力により音声
データを取得する音声データ取得処理プログラム、音声
データを音声認識辞書と比較対照して形態素分析を行っ
て音声認識結果を取得する音声認識処理プログラム、音
声認識処理や外部から入力された音声認識結果を、認識
の対象となった音声データとともに取得する認識結果取
得処理プログラム、前記認識結果取得処理で取得した音
声認識結果を文章に変換する変換処理プログラム、前記
変換処理により取得された変換文章を、複数の段落に区
分する区分処理プログラム、前記区分処理で区分された
それぞれの前記段落を要約する要約処理プログラム、要
約と音声データとの対応を取得する対応取得処理プログ
ラム、要約を各段落の要約文毎に編集する文章編集処理
プログラム、文書編集処理の編集結果に従って、前記対
応に基づいて、前記音声データを編集するデータ編集処
理プログラム、音声データや編集処理によって編集され
た音声データに基づいて音声を出力する音声出力処理プ
ログラム、等の各種プログラムが格納されている。
【0025】文書格納部164には、仮名漢字変換プロ
グラムにより作成された文書や、他の装置で作成されて
記憶媒体駆動装置17や通信制御装置18から読み込ま
れた文書、及び、音声認識結果に基づいて作成された認
識文書、及び認識文書を編集した後の文章等が格納され
る。この文書格納部164に格納される各文書の形式は
特に限定されるものではなく、HTML(Hyper Text
Markup Language)形式、JIS形式、等の各種のテ
キスト形式の文章データが格納可能である。音声認識辞
書格納部165には、音素、単音節、単語、形態素、文
節等(以下形態素等)の単位での音声データと単語等と
の対応音声認識辞書が格納されている。本実施形態にお
いては、形態素毎の音声パターンと形態素が対応する形
態素辞書が格納されている。この音声認識辞書は、制御
部11内の音声認識部において、マイク15から入力さ
れた音声の音声データのパターンや、他の装置で作成さ
れ記憶媒体駆動装置17や通信制御装置18から読み込
まれた音声データのパターンから、対応する単語を探し
出し、入力された音声を単語として認識する際に使用さ
れる。
【0026】編集データ格納部166には、本実施形態
による編集処理を終了した要約のデータ、音声データ、
画像データがそれぞれ対応した状態で格納される。
【0027】記憶媒体駆動装置17は、CPU111が
外部の記憶媒体からコンピュータプログラムや文章、音
声等を読み込むための駆動装置である。記憶媒体に記憶
されているコンピュータプログラムには、本実施形態の
編集処理装置により実行される各種処理のためのプログ
ラム、および、そこで使用される辞書、データ等も含ま
れる。ここで、記憶媒体とは、コンピュータプログラム
やデータ等が記憶される記憶媒体をいい、具体的には、
フロッピーディスク、ハードディスク、磁気テープ等の
磁気記憶媒体、メモリチップやICカード等の半導体記
憶媒体、CD−ROMやMO、PD(相変化書換型光デ
ィスク)等の光学的に情報が読み取られる記憶媒体、紙
カードや紙テープ等の用紙(および、用紙に相当する機
能を持った媒体)を用いた記憶媒体、その他各種方法で
コンピュータプログラム等が記憶される記憶媒体が含ま
れる。本実施形態の編集処理装置において使用される記
憶媒体としては、主として、CD−ROMやフロッピー
ディスクが使用される。記憶媒体駆動装置17は、これ
らの各種記憶媒体からコンピュータプログラムを読み込
む他に、フロッピーディスクのような書き込み可能な記
憶媒体に対してRAM113や記憶装置16に格納され
ているデータ等を書き込むことが可能である。
【0028】本実施形態の編集処理装置では、制御部1
1のCPU111が、記憶媒体駆動装置17にセットさ
れた外部の記憶媒体からコンピュータプログラムを読み
込んで、記憶装置16の各部に格納(インストール)す
る。そして、本実施形態による編集処理等の各種処理を
実行する場合、記憶装置16から該当プログラムをRA
M113に読み込み、実行するようになっている。但
し、記憶装置16からではなく、記憶媒体駆動装置17
により外部の記憶媒体から直接RAM113に読み込ん
で実行することも可能である。また、編集処理装置によ
っては、本実施形態の編集処理プログラム等を予めRO
M112に記憶しておき、これをCPU111が実行す
るようにしてもよい。
【0029】通信制御装置18は、他のパーソナルコン
ピュータやワードプロセッサ等との間で各種形式のテキ
ストデータや、Wavデータ等の音声データ、ビットマ
ップデータ等の画像データ等、各種データの送受信を行
うことができるようになっている。入出力I/F19
は、音声や音楽等の出力を行うスピーカ、表示装置14
に表示された文章や記憶装置16の文書格納部164に
格納された文章等の印刷を行うための印刷装置、音声デ
ータに伴って画像データを取得するための撮像装置、編
集後の音声データや、音声データとそれに伴う画像デー
タを出力する再生装置、等の各種機器を接続するための
インターフェースである。入出力I/F19において接
続される印刷装置としては、レーザプリンタ、ドットプ
リンタ、インクジェットプリンタ、ページプリンタ、感
熱式プリンタ、熱転写式プリンタ、等の各種印刷装置が
使用される。
【0030】音声出力装置20は、音声データを電気信
号として出力する音声出力用ICと、この音声出力用I
Cの出力をディジタル−アナログ変換するD/Aコンバ
ータと、このD/Aコンバータからのアナログの出力を
増幅するアンプとを備えている。そしてこのアンプの出
力端子にはスピーカが接続されており、音声データに対
応した音声が出力されるようになっているいる。
【0031】次に、上述のような構成の編集処理装置に
よる編集処理について図面を参照して説明する。
【0032】図2は、本実施形態による編集処理のメイ
ンの動作の流れを表したフローチャートである。本実施
形態による編集処理においては、図6に示すように、C
PU111は、まず、編集の対象となる音声データ及び
画像データを、それらのデータの作成時刻(録音や録画
の時刻)のデータとともに取得する(データ取得処理)
(ステップ11)。音声データ及び画像データは、外部
の撮像装置によって撮像及び同時録音され、撮像装置内
のフラッシュメモリ等に記憶されているものを、入出力
I/F19を介して取得する。または、通信制御装置1
8を介してインターネットやパソコン通信を介してダウ
ンロードしたり、FDやDVD等の記憶媒体に記憶され
るものを、記憶媒体駆動装置17を介して読み込んで取
得する。また、入出力I/F19を介してCCDカメラ
等の撮像装置から画像データを取得するとともに、マイ
ク15から入力される音声を制御部内の入力音声管理部
において音声データに変換することによって取得しても
よい。取得した音声データはRAMの音声データ格納エ
リア1131に記録時刻とともに格納する。また画像デ
ータは、RAMの画像データ格納エリア1135に記録
時刻とともに格納する。
【0033】尚、入力音声管理部による音声から音声デ
ータへの変換は、例えば、次のようにして行われる。即
ち、入力音声管理部は、マイク15から入力されるアナ
ログの音声信号をディジタル信号に変換するA/D変換
器、及び、ディジタル信号に変換された音声信号から入
力音声のパターンを作成するパターン作成部を備えてお
り、パターン作成部は、音声の周波数分布を分析するこ
とで、例えば、スペクトルや基本周波数の時系列情報を
特徴として抽出し、そのパターンを入力音声のデータと
する。また、時系列情報を統計的特徴(平均、標準偏
差、相関行列など)に変換した情報を音声データとして
もよい。更に、パワースペクトル、LPC係数、ケプス
トラムの情報を音声データとしてもよい。
【0034】音声データおよび画像データと、これらの
データに対応する時刻データとを取得すると、次にCP
U111は、ステップ11で取得した音声データについ
て音声認識処理を行う。図3は、音声認識処理の動作の
流れを表したフローチャートである。この図3に示すよ
うに、CPU111は、音声認識処理においては、RA
Mに格納される音声データのパターンのうち、対応する
形態素が決まっていない部分であって対応する時刻の最
も早い部分から、音声認識辞書格納部165に格納され
るパターンと、順次パターンマッチングにより対比し、
音声データのパターンと、各形態素のパターンそれぞれ
に対する類似度を算出する(ステップ131)。
【0035】次に、各形態素のパターンに対する類似度
から、音声データのパターンと類似度の最も大きい形態
素のパターンを検出する(ステップ133)。そして、
音声データは、検出した最も類似度の大きいパターンの
形態素であると特定し、この形態素を音声データの時刻
と対応させてRAMの所定エリアに格納する(ステップ
135)。続いて、CPU111は、RAMの音声デー
タ格納エリア1131の音声データのうち、ステップ1
35で対応する形態素が確定していない部分があるかど
うかを調べ(ステップ137)、対応する形態素が確定
していない部分がある場合(ステップ137;Y)に
は、ステップ131にリターンし、対応する形態素が確
定していない部分について、対応する時刻の最も早い部
分からパターンマッチングを行い、以下RAMの所定エ
リアの音声データについての全て対応する形態素が特定
されるまで、ステップ131からの処理を繰り返す。音
声データ格納エリア1131に格納される音声データ全
体について対応する形態素が確定した場合(ステップ1
37;N)には、確定した形態素を対応する時刻の順に
並べ直し、音声認識結果として、時刻とともにRAMの
所定エリアに格納する(ステップ139)。形態素を対
応する時刻に並べることによって、1または複数の文
が、音声認識結果として取得される。音声認識結果と時
刻とをRAMの所定エリアに格納すると、CPU111
は、音声認識処理を終了して、メインのルーチンへリタ
ーンする。
【0036】音声認識処理に続いて、CPU111は、
変換文章取得処理を行う(ステップ15)。この変換文
章取得処理においては、ステップ13の音声認識処理で
取得した音声認識結果について、自然言語処理に従って
解析を行い、特定された形態素が不自然な場合には、形
態素を特定し直し、音声認識結果を修正する。
【0037】次に、CPU111は、変換文章取得処理
において取得した文章について、段落毎に区分する区分
処理を行う(ステップ17)。図4は、本実施形態にお
ける区分処理の流れを示すフローチャートである。この
図4に示すように、区分処理では、CPU111は、必
要に応じて修正された音声認識結果(変換文章)を所定
の数の文毎に区切って小さな仮の段落(仮段落)毎にま
とめる(ステップ171)。そして、仮段落毎について
文書ベクトルを作成する(ステップ173)。この文書
ベクトルの作成については、特開平11−45288号
公報記載の技術等の、従来より公知の技術を用いること
ができる。
【0038】図5は、各仮段落の文書ベクトルを作成す
る文書ベクトル作成処理の動作の一例を表したフローチ
ャートである。CPU111は、文書ベクトルを作成す
る仮段落について、形態素解析を行って、自立語、名詞
句、複合名詞句等を含めた候補語(句)を抽出しRAM
113の所定の作業領域に格納する(ステップ173
1)。そして抽出した候補語(句)の仮段落中での出現
頻度、評価関数から、各候補語(句)重要度f(x)を
決定する(ステップ1733)。ここで、評価関数とし
ては、例えば、所定の重要語が予め指定されている場合
にはその重要語に対する重み付け、単語、名詞句、複合
名詞句等の候補語(句)の種類による重み付け等が使用
される。
【0039】更にCPU111は、決定した重要度f
(x)の値から仮段落中のキーワードa,b,…を決定
する(ステップ1735)。そして、各キーワードの重
要度f(x)を要素として、文書ベクトルV=(f
(a),f(b),…)をRAM113の所定作業領域
に格納する(ステップ1735)。この文書ベクトルV
を求める処理を全ての仮段落について行う。
【0040】全ての仮段落の文書に対して文書ベクトル
Vを求めた後、CPU111は、時刻が互いに連続する
各仮段落同士の類似度sを求める(ステップ175)。
この仮段落どうしの類似度については、特開平11−4
5288号公報記載の技術等の、従来より公知の技術を
用いることができる。本実施形態においては、各仮段落
間の類似度sを、両者の文書ベクトルbnと文書ベクト
ルbn+1間の角度に依存するコサインにより求める。
すなわち、両文書ベクトルbnとbn+1間の角度をq
とし、両文書ベクトルの内積をbn・bn+1とし、両
文書ベクトルの大きさをそれぞれ|bn|、|bn+1
|とした場合、両文書ベクトルの類似度sは次の数式1
により求まる。
【0041】
【数1】類似度s=COS(q)=(bn・bn+1)
/(|bn|×|bn+1|)
【0042】この類似度sの値は−1≦s≦1までの値
をとり、1に近いほど2つの仮段落の文書ベクトルが互
いに平行に近く、2つの仮段落どうしは似ていると考え
ることができる。
【0043】次に、CPU111は、算出した類似度s
から、時刻において前後し、且つ類似度が高い仮段落ど
うしは類似しているとして同一の段落に纏めて、変換文
章を区分する(ステップ177)。図6は、時刻が連続
したAからGの7つの仮段落からなる変換文章につい
て、仮段落の類似度と段落区分との関係を示した図であ
る。図6においては、仮に類似度0.6以上の文書を類
似しているものとすると、図6(a)に示すように、
A、B、C、Dの4文書は、全て類似度が0.6以上な
ので、1つの段落(X)となる。また、文書E、Fも類
似度sが0.9なので1つの段落(Y)となる。文書G
は、類似している文書が存在しないので、(Z)として
独自に段落を構成する。
【0044】この実施の形態では、この段落の作成を類
似度が0.6以上としたが他の値、例えば、0.7、
0.8でもよく、これをユーザ側で設定できるようにし
てもよい。変換文章を段落に区分した後は、区分処理を
終了してメインのルーチンにリターンする。
【0045】そして、変換文章を各段落に区分した後、
CPU111は、変換文章の各段落について、要約を作
成する要約作成処理を行う(ステップ19)。図7は、
要約作成処理の動作を表したフローチャートである。C
PU111は、まず要約作成処理を行う段落に含まれる
自立語、名詞句、複合名詞句等を含めた候補語(句)を
抽出しRAM113の所定作業領域に格納する(ステッ
プ191)。そして、抽出した候補語(句)の各文書群
中での出現頻度、評価関数等から、各候補語(句)重要
度f(y)を決定する(ステップ193)。ここで、評
価関数としては、例えば、所定の重要語が予め指定され
ている場合にはその重要語に対する重み付け、単語、名
詞句、複合名詞句等の候補語(句)の種類による重み付
け等が使用される。
【0046】更にCPU111は、決定した重要度f
(y)等から、各文書群含まれる各センテンスに対する
重要度F(z)を算出する(ステップ195)。そし
て、決定した各センテンスの重要度F(z)が上位から
所定の要約比率(例えば、文書群の全文数の内の上位2
5%)以内に入る文、または重要度F(z)が所定ラン
ク(例えば2位まで)に入る文を抽出する。そしてCP
U111は、抽出した文を段落中での出現順に並べるこ
とで当該段落についての要約とし、この要約を、そのも
とになっている変換文章の各段落の時刻に対応して要約
格納エリア1134に格納する(ステップ197)。こ
の要約作成処理は、変換文章の全ての段落について行
う。全ての段落についての要約を作成すると、CPU1
11は、メインのルーチンにリターンする。
【0047】各段落に対する要約の作成が終了するとC
PU111は、これらの要約を時刻順に表示装置14に
表示し、キーボードやマウスからの入力によって、各段
落毎の要約の入れ換えや削除、複写を取得する。そし
て、入れ換え等に従って要約格納エリア1134の要約
を格納し直す(ステップ21)。従って、対応する時刻
も時刻順から、入れ換えや削除、複写の入力に従って、
変更されたものとなる。
【0048】そして、入れ替わった時刻順に従って音声
データ及び画像データを並べ替え(ステップ23)、記
憶装置16の編集データ格納部166に、要約、音声デ
ータ、及び画像データを並べ替えた順順序とともに格納
し(ステップ25)、編集処理を終了する。これらの画
像データ、及び音声データは、キーボードやマウスから
の出力コマンドの入力によって、編集された順に同時に
出力され、記憶装置16の記憶媒体に書き込まれたり、
音声出力装置20及び表示装置14から出力再生された
り、または、入出力I/F19に接続された再生装置に
よって出力再生される。
【0049】図8は、上述の編集処理装置を用いた編集
処理におけるデータの状態を説明する説明図である。編
集処理においては、まず、図8(a)に示すように、デ
ータ取得処理において、編集の対象となる音声データ及
び画像データが、それらのデータの作成時刻(録音や録
画の時刻)とともに取得される。図8の例においては、
音声及び映像が3つの内容I、II、IIIについての
ものであり、Iの内容は時刻tk1b〜tk1eに記録
され、対応する音声データが音声データ(1)、画像デ
ータが画像データ(A)、IIの内容は時刻tk2b〜
tk2eに記録され、対応する音声データが音声データ
(2)、画像データが画像データ(B)、IIIの内容
は時刻tk3b〜tk3eに記録され、対応する音声デ
ータが音声データ(3)、画像データが画像データ
(C)となっているとする。そして、図8(b)に示す
ように、音声認識処理、変換文章取得処理によって、音
声データに対応する変換文章データ(イ)、(ロ)、
(ハ)が取得される。文書データは、図8(c)に示す
ように、区分処理によって段落毎に区分され、また要約
作成処理によって、各段落毎の要約(イ’)〜(ハ’)
が作成される。
【0050】要約作成処理が終了すると、図8(c)に
示すように、表示装置14に、各段落の要約が表示され
る。本例においては、表示装置には、各段落の要約に加
えて、その段落名(場面)、及び撮影開始時刻を0とそ
した場合の各段落の出力時間が各段落と同じ行に表示さ
れる。そして、これらのうち一行を指定し、ドラッグに
より入れ換えると、図8(d)に示すように、この入れ
換え結果が表示装置14に表示され、入れ換え結果に従
った順番で、要約データ、音声データ及び画像データ
が、出力時間とともに編集データ格納部166に格納さ
れる。
【0051】このように、本実施形態では、音声データ
及び画像データをそれらの作成時刻とともに取得する。
そして、音声認識処理及び変換文章処理によって、取得
した音声データに対応したテキストデータを作成し、テ
キストデータをその内容に基づいて段落に区分し、テキ
ストデータと音声データ及び画像データとの対応をそれ
らの作成時刻から取得し、音声データ及び画像データを
内容毎に纏めて区分した。そして、テキストデータに基
づいて各区分の要約を作成し、要約を表示装置14に表
示し、その順番を入れ換えや削除、複写に従って、音声
データ及び画像データの順番の入れ換え、削除、複写が
行われる。従って、本実施形態によると、音声データを
テキストデータに変換し、テキストデータを編集するこ
とによって音声データを編集できるので、編集の位置等
を容易に正確に指定することができる。本実施形態によ
ると、テキストデータは、音声データの音声を音声認識
により変換したものなので、テキストデータによって直
接音声データの内容を知ることができ、直感的に取り扱
うことができる。本実施形態によれば、音声データに基
づいて要約が作成され、音声データや画像データが内容
に従って区切られるため、データが多い場合であって
も、内容の区切りを容易に把握し、内容毎に出力順番を
入れ換えたり削除したり、複写したりすることができ
る。本実施形態によれば、音声データ及び画像データが
内容毎に区分され、内容の要約が表示されるので、内容
を容易に把握しながら、編集を行うことができる。本実
施形態によれば、要約の編集結果に従って、音声データ
及び画像データが編集されるので、膨大なデータについ
ても、容易に編集することができる。
【0052】尚、上述のような編集処理装置は、2カ国
語放送等を作成する場合の映像と音声の同期処理、ニュ
ース番組やドキュメンタリー番組の作成においてニュー
スや取材の順番を入れ換える編集処理装置、自動音声応
答システムにおける応答内容の作成や変更、映画中等の
せりふを指定しての映像編集等、に使用することができ
る。
【0053】次に、本発明の第2の実施形態について説
明する。尚、本実施形態において、図1〜図8に示す第
1の実施形態と同様の処理部、手段、装置、及び処理等
については、同一の符号を付し、説明は省略する。
【0054】図9は、本発明の第2の実施形態による編
集処理の流れを示すフローチャートである。本実施形態
においては、編集処理装置は、RAM113には、重要
語格納エリア、要約格納エリアは設けられていない。ま
た、編集処理においては、データ取得処理(ステップ1
1)においては、音声データと、その音声データの録音
時刻とを取得する。この時刻は、音声データの形態素毎
に対応して取得する。そして、図9に示すように、変換
文章取得処理の後は、変換文章を表示装置14に表示
し、形態素毎の入れ換えや削除、複写を、キーボードや
マウスからの範囲及びコマンドの選択や入力によって取
得する(ステップ57)。形態素毎の入れ換えや削除、
複写を取得すると、CPU111は、これらの入力に従
って、対応する音声データを録音時刻から調べ、音声デ
ータを並べ替え、編集データ格納部166に格納し、編
集処理を終了する。
【0055】図10は、本実施形態の編集処理装置を用
いた編集処理におけるデータの状態を説明する説明図で
ある。図10の例においては、データ取得処理(ステッ
プ11)において、「今日私は、チョコレートを食べ
た。」という音声を録音した音声データを取得してい
る。そして、図10(a)に示すように、音声認識処理
(ステップ13)によって、取得した音声データのパタ
ーンに対応する形態素を取得する。図10に示す例にお
いては、「今日は他誌は、チョコレートを食べた。」と
いう形態素が取得されたとする。形態素を取得する場
合、対応する音声データ時刻t1、t2、・・・t12
も形態素毎に取得する。そして、変換文章取得処理にお
いては、形態素を元になる音声データの時刻順に並べた
状態で自然言語処理によって、再び形態素を取得し、図
10(b)に示すように、形態素毎に区切って、変換文
章を取得する。図10の例においては、自然言語処理を
加えることによって、「今日は他誌は」が「今日私は」
に訂正されている。そしてこの訂正に伴う形態素の変更
によって、形態素毎の対応時刻も変更されている。
【0056】そして、CPU111は、変換文章を、文
節毎に区切った状態で、表示装置14に表示し、キーボ
ードやマウスからの入力によって、文節の入れ換えや削
除、複写を取得する。そして、図10(c)に示すよう
に、表示された変換文章の文節の入れ換えに従って、音
声データも順番の入れ換えまたは削除を行い、編集デー
タ格納部166に格納する。この音声データは、キーボ
ードやマウスからの出力コマンドの入力によって、編集
された順に同時に出力され、記憶装置16の記憶媒体に
書き込まれたり、音声出力装置20及び表示装置14か
ら出力再生されたり、または、入出力I/F19に接続
された再生装置によって出力再生される。
【0057】この様に、本実施形態では、音声データを
その作成時刻とともに取得する。そして、音声認識処理
及び変換文章処理によって、取得した音声データに対応
したテキストデータを作成し、テキストデータをその内
容に基づいて文節に区分し、テキストデータと音声デー
タとの対応を文節毎にそれらの作成時刻から取得した。
そして、テキストデータに基づいて文章を表示装置14
に表示し、文節毎の順番の入れ換えや削除、複写を取得
し、この入れ換えや削除、複写に従って、音声データの
順番の入れ換え、削除、複写を行う。従って、本実施形
態によると、音声データをテキストデータに変換し、テ
キストデータを編集することによって音声データを編集
できるので、編集の位置等を容易に正確に指定すること
ができる。本実施形態では、音声データの形態素毎に対
応時刻が取得され、また、テキストデータにおいても形
態素に対応して対応時刻が取得されており、対応時刻を
介して、形態素単位で、音声データとテキストデータと
の対応を取得することができる。そして、テキストデー
タを入れ換えると、この入れ換えに従って、音声データ
が形態素単位で並べ替えられる。従って、形態素単位で
音声データを編集することができる。本実施形態によれ
ば、テキストデータは、音声データの音声を音声認識に
より変換したものなので、テキストデータによって直接
音声データの内容を知ることができ、直感的に取り扱う
ことができる。
【0058】このような、音声データを編集する編集処
理装置は、思いついた事柄をレコーダ等に吹き込み、後
にひとつのまとまりのある文章に編集する場合に使用す
ることができる。また、語学学習者や幼児が文節の組み
替えによって、文法を学習する学習機として、また、文
章作成ゲームのゲーム機として使用することができる。
【0059】尚、本発明は、上述の実施形態に限定され
るものではなく、本発明の趣旨を逸脱しない限りにおい
て適宜変更が可能である。例えば、上述の各実施形態に
おいては編集処理装置としてコンピュータを用いている
が、コンピュータに限定されるものではなく、編集処理
のための専用機でもよい。上述の各実施形態において
は、音声認識処理に続いて、自然言語処理によって形態
素を取得し直す変換文章取得処理を行っているが、予め
自然言語処理に基づいて形態素を取得した音声認識結果
を得て、変換文章取得処理を行わないようにしてもよ
い。また、変換文章取得処理においては、形態素の区切
りをユーザが指定することによって、新たに形態素を取
得し直すようにしてもよい。
【0060】上述の第1の実施形態においては、CPU
111に音声認識部が設けられ、音声の入力によって音
声データを取得できるようになっているが、音声認識部
を備えず、音声データを取得するものとすることもでき
る。上述の第1の実施形態においては、類似度が所定以
上どうしであって、時刻が連続している仮段落を纏めて
段落を形成しているが、時刻は考慮せず、類似度が所定
以上であるものについて全て仮段落を纏めて段落として
もよい。また、段落の区分は、仮段落の類似度によって
決定しなくてもよく、例えば、変換文章全体から重要語
を抽出し、最初の文と2つ目の文、最初から3つ目の文
まで、・・・というように、重要語の重要度を求めてい
き、重要語のうち最も重要度の高い重要語(最重要語)
が切り替わる位置を段落の変わり目として、各段落の区
分を求めてもよい。上述の第1の実施形態においては、
各仮段落間の類似度sを、両者の文書ベクトルbnと文
書ベクトルbn+1間の角度に依存するコサインにより
求めているが、類似度はこれに限られるものではなく、
例えば、各仮段落の最も需要度の高い候補語のみについ
て、同一の場合には類似度を1、異なる場合には類似度
を0とする等としてもよい。
【0061】上述の第1の実施形態においては、各段落
毎に要約を作成し、要約を参照して各段落を入れ換えた
り削除、複写する編集ができるようになっているが、各
段落の変換文章そのままを表示装置14に表示して、段
落毎の他、文毎に入れ換えや削除、複写をしてもよい。
また、第2の実施形態を兼ね備えることによって文節、
形態素毎に入れ換えや削除、複写をできるようにしても
よい。
【0062】上述の実施形態及び各変形例においては、
仮名漢字変換辞書格納部161、文書格納部164、音
声認識辞書格納部165、編集データ格納部166が全
てプログラム格納部162と同じ記憶装置に設けられて
いるが、例えば、編集データ格納部166はフロッピー
ディスクや光磁気ディスク等、記憶媒体駆動装置の記憶
媒体に設ける等、これらのうちの一部または全てを他の
手段に設けてもよい。
【0063】上述の実施形態及び各変形例においては、
入力音声は日本語となっているが、あらゆる言語につい
て、音声データを取得し、編集処理を行うことが可能で
ある。その場合、対象となる言語用の形態素解析アルゴ
リズム等を使用するといった、本発明の構成には影響の
ない部分を変更するだけでよい。
【0064】尚、以上の実施形態において説明した、各
装置、各部、各動作、各処理等に対しては、それらを含
む上位概念としての各手段(〜手段)により、実施形態
を構成することが可能である。例えば、「CPU111
は、ステップ11で取得した音声データについて音声認
識処理を行う。」との記載に対してCPU111とは別
途、音声認識処理を行う音声認識手段を構成するように
してもよい。同様に、その他各種動作に対して「〜(動
作)手段」等の上位概念で実施形態を構成するようにし
てもよい。
【0065】
【発明の効果】以上説明したように、本発明によれば、
音声データの編集を容易に短時間で行うことが可能であ
る。
【図面の簡単な説明】
【図1】本発明の編集処理装置の第1の実施形態であ
り、本発明の編集処理プログラムが記憶された記憶媒体
の第1の実施形態の該プログラムが読み取られた、コン
ピュータの構成を表したブロック図である。
【図2】図1の実施形態による編集処理のメインの動作
の流れを表したフローチャートである。
【図3】図1の実施形態による音声認識処理の動作の流
れを表したフローチャートである。
【図4】図1の実施形態における区分処理の流れを示す
フローチャートである。
【図5】各仮段落の文書ベクトルを作成する文書ベクト
ル作成処理の動作の一例を表したフローチャートであ
る。
【図6】時刻が連続したAからGの7つの仮段落からな
る変換文章について、仮段落の類似度と段落区分との関
係を示した図である。
【図7】図1の実施形態における要約作成処理の動作を
表したフローチャートである。
【図8】図1の実施形態の編集処理におけるデータの状
態を説明する説明図である。
【図9】本発明の第2の実施形態による編集処理の流れ
を示すフローチャートである。
【図10】図9の実施形態による編集処理におけるデー
タの状態を説明する説明図である。
【符号の説明】
11 制御部 112 ROM 113 RAM 1131 音声データ格納エリア 1132 変換文章格納エリア 1134 要約格納エリア 1135 画像データ格納エリア 12 キーボード 13 マウス 14 表示装置 15 マイク 16 記憶装置 161 仮名漢字変換辞書格納部 162 プログラム格納部 164 文書格納部 165 音声認識辞書格納部 166 編集データ格納部 17 記憶媒体駆動装置 18 通信制御装置 19 入出力I/F 20 音声出力装置
───────────────────────────────────────────────────── フロントページの続き (72)発明者 東 宏一 徳島県徳島市沖浜東3丁目46番地 株式会 社ジャストシステム内 Fターム(参考) 5B009 KB05 5D015 KK02 9A001 BB01 BB03 BB04 BB05 CC07 DD02 DD13 EE02 EE05 FF03 GG05 HH11 HH12 HH15 HH16 HH17 HH23 HH33 JJ25 JJ29 JJ35 JJ74 JJ76 KK02 KK09 KK15 KK16 KK42 KK43

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 音声認識手段による音声認識結果を、認
    識の対象となった音声データとともに取得する認識結果
    取得手段と、 前記認識結果取得手段で取得した前記音声認識結果に基
    づいて認識文章を作成する認識文章作成手段と、 前記文章作成手段で作成された前記認識文章と前記認識
    結果取得手段で取得した前記音声データとの対応を前記
    認識文章の所定単位毎に取得する対応取得手段と、 前記文章作成手段で取得された前記認識文章を前記所定
    単位で編集する文章編集手段と、 前記文書編集手段の編集結果に従って、前記対応に基づ
    いて、前記音声データを編集するデータ編集手段とを備
    えることを特徴とする編集処理装置。
  2. 【請求項2】 前記所定単位は、音素、単音節、単語、
    形態素、文節、及び文、のうちのいずれかであることを
    特徴とする請求項1に記載の編集処理装置。
  3. 【請求項3】 前記文章作成手段は、前記認識結果取得
    手段で取得した音声認識結果を文章に変換する変換手段
    と、前記変換手段により取得された変換文章を、複数の
    段落の段落に区分する区分手段とを備え、 前記所定単位は、前記区分手段で区分された前記段落で
    あることを特徴とする請求項1に記載の編集処理装置。
  4. 【請求項4】 前記文章作成手段は、前記認識結果取得
    手段で取得した音声認識結果を文章に変換する変換手段
    と、前記変換手段により取得された変換文章を、複数の
    段落の段落に区分する区分手段と、前記区分手段で区分
    された前記段落それぞれを要約する要約手段とを備え、
    前記要約手段により取得された各段落の前記要約からな
    る文章を認識文書として取得し、 前記対応取得手段は、前記段落を前記所定単位として、
    前認識記文章と前記音声データとの対応を取得すること
    を特徴とする請求項1に記載の編集処理装置。
  5. 【請求項5】 前記認識結果取得手段は、画像データに
    付加された音声データを前記画像データとともに取得
    し、 前記対応取得手段は、前記文章作成手段で作成された前
    記認識文章と、前記音声データ及び前記画像データとの
    所定単位毎の対応を取得し、 前記データ編集手段は、前記文書編集手段の編集結果に
    従って、前記対応に基づいて、前記音声データとともに
    前記画像データを編集することを特徴とする請求項1か
    ら請求項4のうちのいずれか1の請求項に記載の編集処
    理装置。
  6. 【請求項6】 音声認識手段による音声認識結果を、認
    識の対象となった音声データとともに取得する認識結果
    取得機能と、 前記認識結果取得機能で取得した前記音声認識結果に基
    づいて認識文章を作成する文章作成機能と、 前記文章作成機能で作成された前記認識文章と前記認識
    結果取得機能で取得した前記音声データと対応を前記認
    識文章の所定単位毎に取得する対応取得機能と、 前記文章作成機能で取得された前記認識文章を前記所定
    単位で編集する文章編集機能と、 前記文書編集機能の編集結果に従って、前記対応に基づ
    いて、前記音声データを編集するデータ編集機能とをコ
    ンピュータに実現させるためのコンピュータ読み取り可
    能な編集処理プログラムが記憶された記憶媒体。
JP33704199A 1999-11-29 1999-11-29 編集処理装置、及び編集処理プログラムが記憶された記憶媒体 Expired - Fee Related JP3444831B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP33704199A JP3444831B2 (ja) 1999-11-29 1999-11-29 編集処理装置、及び編集処理プログラムが記憶された記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP33704199A JP3444831B2 (ja) 1999-11-29 1999-11-29 編集処理装置、及び編集処理プログラムが記憶された記憶媒体

Publications (2)

Publication Number Publication Date
JP2001155467A true JP2001155467A (ja) 2001-06-08
JP3444831B2 JP3444831B2 (ja) 2003-09-08

Family

ID=18304879

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33704199A Expired - Fee Related JP3444831B2 (ja) 1999-11-29 1999-11-29 編集処理装置、及び編集処理プログラムが記憶された記憶媒体

Country Status (1)

Country Link
JP (1) JP3444831B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002297188A (ja) * 2001-03-30 2002-10-11 Konami Computer Entertainment Yokyo Inc 音声編集装置及び音声編集プログラム
JP2007527558A (ja) * 2003-04-23 2007-09-27 デイビッド ワット スティーブンソン ウェブサイトなどの情報源によるナビゲーション
US7373299B2 (en) 2002-12-27 2008-05-13 Kabushiki Kaisha Toshiba Variable voice rate apparatus and variable voice rate method
JP2008209717A (ja) * 2007-02-27 2008-09-11 Toshiba Corp 入力された音声を処理する装置、方法およびプログラム
JP2010122823A (ja) * 2008-11-18 2010-06-03 Nec Corp テキスト処理システム、情報処理装置、テキストおよび情報の処理方法ならびに処理プログラム
JP2012150363A (ja) * 2011-01-20 2012-08-09 Kddi Corp メッセージ映像編集プログラムおよびメッセージ映像編集装置
JP2014235263A (ja) * 2013-05-31 2014-12-15 ヤマハ株式会社 音声認識装置およびプログラム
JP2016206487A (ja) * 2015-04-24 2016-12-08 日本電信電話株式会社 音声認識結果整形装置、方法及びプログラム
JP2020154057A (ja) * 2019-03-19 2020-09-24 株式会社モアソンジャパン 音声データのテキスト編集装置及び音声データのテキスト編集方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002297188A (ja) * 2001-03-30 2002-10-11 Konami Computer Entertainment Yokyo Inc 音声編集装置及び音声編集プログラム
US7373299B2 (en) 2002-12-27 2008-05-13 Kabushiki Kaisha Toshiba Variable voice rate apparatus and variable voice rate method
US7742920B2 (en) 2002-12-27 2010-06-22 Kabushiki Kaisha Toshiba Variable voice rate apparatus and variable voice rate method
JP2007527558A (ja) * 2003-04-23 2007-09-27 デイビッド ワット スティーブンソン ウェブサイトなどの情報源によるナビゲーション
JP2008209717A (ja) * 2007-02-27 2008-09-11 Toshiba Corp 入力された音声を処理する装置、方法およびプログラム
US8954333B2 (en) 2007-02-27 2015-02-10 Kabushiki Kaisha Toshiba Apparatus, method, and computer program product for processing input speech
JP2010122823A (ja) * 2008-11-18 2010-06-03 Nec Corp テキスト処理システム、情報処理装置、テキストおよび情報の処理方法ならびに処理プログラム
JP2012150363A (ja) * 2011-01-20 2012-08-09 Kddi Corp メッセージ映像編集プログラムおよびメッセージ映像編集装置
JP2014235263A (ja) * 2013-05-31 2014-12-15 ヤマハ株式会社 音声認識装置およびプログラム
JP2016206487A (ja) * 2015-04-24 2016-12-08 日本電信電話株式会社 音声認識結果整形装置、方法及びプログラム
JP2020154057A (ja) * 2019-03-19 2020-09-24 株式会社モアソンジャパン 音声データのテキスト編集装置及び音声データのテキスト編集方法

Also Published As

Publication number Publication date
JP3444831B2 (ja) 2003-09-08

Similar Documents

Publication Publication Date Title
Calvo-Zaragoza et al. Understanding optical music recognition
JP4218758B2 (ja) 字幕生成装置、字幕生成方法、及びプログラム
JP5257330B2 (ja) 発言記録装置、発言記録方法、プログラム及び記録媒体
Burgoyne et al. Music information retrieval
US8065142B2 (en) Synchronization of an input text of a speech with a recording of the speech
JP3250559B2 (ja) 歌詞作成装置及び歌詞作成方法並びに歌詞作成プログラムを記録した記録媒体
US20070016422A1 (en) Annotating phonemes and accents for text-to-speech system
JP2000081892A (ja) 効果音付加装置および効果音付加方法
US20080077869A1 (en) Conference supporting apparatus, method, and computer program product
JP3938096B2 (ja) インデックス作成装置、インデックス作成方法、および、インデックス作成プログラム
JP3444831B2 (ja) 編集処理装置、及び編集処理プログラムが記憶された記憶媒体
Carrive et al. Transdisciplinary analysis of a corpus of French newsreels: The ANTRACT Project
JP2006243673A (ja) データ検索装置および方法
KR20060100646A (ko) 영상물의 특정 위치를 검색하는 방법 및 영상 검색 시스템
JP4344418B2 (ja) 音声要約装置及び音声要約プログラムを記録した記録媒体
JP4239850B2 (ja) 映像キーワード抽出方法及び装置及びプログラム
JP3537753B2 (ja) 編集処理装置、及び編集処理プログラムが記憶された記憶媒体
WO2021153403A1 (ja) テキスト情報編集装置及びテキスト情報編集方法
JPH11102372A (ja) 文書要約装置及びコンピュータ読み取り可能な記録媒体
JP3721397B2 (ja) 話し言葉の書き言葉への変換装置
Serralheiro et al. Towards a repository of digital talking books.
JPH06231179A (ja) 情報検索方式
TWI790630B (zh) 自動生成筆記之方法與裝置
US7349846B2 (en) Information processing apparatus, method, program, and storage medium for inputting a pronunciation symbol
JP2003271616A (ja) 文書分類装置、文書分類方法及び記録媒体

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090627

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120627

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees