JP5104762B2 - コンテンツ要約システムと方法とプログラム - Google Patents

コンテンツ要約システムと方法とプログラム Download PDF

Info

Publication number
JP5104762B2
JP5104762B2 JP2008540951A JP2008540951A JP5104762B2 JP 5104762 B2 JP5104762 B2 JP 5104762B2 JP 2008540951 A JP2008540951 A JP 2008540951A JP 2008540951 A JP2008540951 A JP 2008540951A JP 5104762 B2 JP5104762 B2 JP 5104762B2
Authority
JP
Japan
Prior art keywords
text
important
content
input
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008540951A
Other languages
English (en)
Other versions
JPWO2008050649A1 (ja
Inventor
健太郎 長友
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008540951A priority Critical patent/JP5104762B2/ja
Publication of JPWO2008050649A1 publication Critical patent/JPWO2008050649A1/ja
Application granted granted Critical
Publication of JP5104762B2 publication Critical patent/JP5104762B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Telephonic Communication Services (AREA)
  • Information Transfer Between Computers (AREA)

Description

[関連出願の記載]
(関連出願)本願は、先の日本特許出願2006−287562号(2006年10月23日出願)の優先権を主張するものであり、前記先の出願の全記載内容は、本書に引用をもって繰込み記載されているものとみなされる。
本発明は、コンテンツを要約するシステムと方法とプログラムに関し、特に、音声信号から発話内容を要約する応答に適用して好適なシステム、方法およびプログラムに関する。
従来の発話内容要約システムの一例が、特許文献1に開示されている。図1に示すように、この従来の発話内容要約システムは、音声入力手段101と音声認識手段102とテキスト要約手段103から構成されている。
図1の構成を有する従来の発話内容要約システムは、次のように動作する。
まず音声入力手段101からの音声信号を音声認識手段102を用いてテキストに変換する。
次に変換されたテキストを何らかのテキスト要約手段によって要約し、要約テキストを作成する。テキスト要約には非特許文献1で挙げられるようなさまざまな公知技術が利用される。
特開2000−010578号公報 奥村学,難波英嗣 "テキスト自動要約に関する研究動向",自然言語処理, Vol.6,No.6, pp.1-26, 1999.
なお、上記特許文献1、非特許文献1の全開示内容はその引用をもって本書に繰込み記載する。以下の分析は本発明によって与えられる。
図1に示した従来のシステムは、以下のような問題点を有している。
第1の問題点は、現行のテキスト要約技術では、ある程度以上の長い発話や、人間同士の自然な対話のように、複雑で多様な構造を持ったテキストを十分な品質で要約することが不可能である、という点である。
その理由は、従来の要約アルゴリズムは、構造が単純で、特徴が明確であり、比較的短いテキストでのみ、十分な品質を有するように設計されている。このため、複雑で多様な構造を持ったテキストを十分な品質で要約することは、実質的に不可能である。
2つの典型的な従来の要約アルゴリズムを例に挙げる。
第1のアルゴリズムは、特許文献1に記載された手法である。この手法は、想定される要約元テキストのあらゆる構造を予め列挙しておき、いずれかの構造にマッチした場合、その構造に関連付けられた変換規則を用いて要約テキストを生成する。
例えば、「部門」と「人名」が近接するという構造を予め登録しておき、その場合の要約生成規則として、「部門 人名」を生成するものとすれば、「営業部の佐藤さん」という入力テキストに対し、「営業 佐藤」という要約テキストを生成することができる。
この第一のアルゴリズムが実用上十分であるためには、
・入力テキストの構造が例えば上記のように書き下すことができるほど簡単であり、且つ
・予め登録し尽くしておけるほど多様でない、
ということが条件となる。
逆に言えば、構造が複雑で多様な入力に対しては、実用的とは言えない。
第2のアルゴリズムは、非特許文献1に記載された手法である。すなわち、
テキストをいくつかの部位に分割し、
その各々について何らかの尺度から重要度を計算する。
すべての部位のうち、重要度の低いものから順に取り除いていき、必要十分な大きさになるまで繰り返す。
こうする事で、テキスト全体の重要な部位のみからなる十分小さなテキスト(要約テキスト)を得ることができる。
非特許文献1によれば、重要度の求め方としては、
その部位に含まれる、
・重要な単語の個数や、
・各単語の重要度の和、
・接続語などによる部位の論理的重み付け、
・見出しや文頭、文末などの一般的な文章構造に対する知識、
などを複合的に用いることができる。
しかしながらこの第2のアルゴリズムによる手法では、重要度という一次元の尺度に落とした上で、テキスト部位の要・不要を判断するため、一様でないテキストに対して適切な要約を生成することが難しい。
例えばテキストが2つの主題についての議論であったとき、
主題1に関する記述の量が主題2に関するものより著しく多い場合には、
要約テキストには、主題1に関する記述が残りやすくなる。
会議や窓口応対のような人間同士の自然な対話音声は、一つの対話の中で、様々な主題について情報をやり取りする。
このとき、対話の参加者全員が周知している情報に関する発話は、その真の重要度によらず少なくなるであろう。
一方で、結果的にはさして重要とは言えない情報であっても、一部の参加者がよく知らないという理由だけで、記述量が増え、結果として、重要度が高いと判断されることは容易に起こりうる。
よって、この第2のアルゴリズムも、長い発話や人間同士の自然な対話の要約には不十分である。
第2の問題点は、ユーザが音声の中の重要箇所を指示できるような仕組みを用意した場合、その音声がリアルタイムで与えられているとすると、適切な箇所を指定する行為そのものが難しいという点である。
例えば、人間同士が会話している状況で重要箇所を指示するという場面を想定すれば明らかであるが、人間がある音声を耳にしたとき、その意味を理解し、全体における重要度や要約に含めるか否かを判断できるのは、その該当部位の音声が発話されてから、しばらく後になることは明らかである。
したがって、本発明の目的は、比較的長い音声や、人間同士の自然な対話音声であっても、実用上十分な要約を生成することのできる発話内容要約システムを提供することにある。
本発明の他の目的は、ユーザが音声の中の重要箇所を指示できるような仕組みを用意した場合、その音声をリアルタイムに流した場合であっても、適切な箇所を指定できるような発話内容要約システムを提供することである。
本願で開示される発明は、前記課題を解決するため、概略以下の構成とされる。
本発明に係るコンテンツ要約システムは、時間の経過に関連付けて提示されるコンテンツを入力するコンテンツ入力手段と、前記コンテンツ入力手段より入力されたコンテンツからテキスト情報を抽出するテキスト抽出手段と、重要箇所を指示する重要箇所指示手段と、前記コンテンツ入力手段より入力されたコンテンツと、前記重要箇所指示手段より入力された重要箇所との同期を取る同期手段と、を備えている。
本発明において、前記テキスト抽出手段によって得られたテキスト情報について、予め定められた所定の処理を行い、前記重要箇所指示に対応する重要区間を推定する重要区間推定手段を備えている。
本発明において、前記テキスト抽出手段によって得られたテキスト情報に対して、前記重要区間推定手段によって得られた重要区間を参照してテキストの要約処理を行い、要約テキストを出力するテキスト要約手段を備えている。
本発明において、前記テキスト要約手段は、前記重要区間推定手段によって推定された重要区間に相当するコンテンツから得られたテキストを優先して要約処理を行う。
本発明において、前記コンテンツ入力手段より入力されたコンテンツが音声を含み、
前記テキスト抽出手段は、コンテンツとして入力された音声信号を音声認識することによってテキスト情報を抽出する音声認識手段を備えている。
本発明において、前記テキスト抽出手段は、
コンテンツとして与えられた文字情報をテキスト情報として抽出する手段、
メタ情報を含むマルチメディア信号からメタ情報を読み出すことによってテキスト情報を抽出する手段、
像信号からクローズドキャプション信号を読み出すことによってテキスト情報を抽出する手段、
映像に含まれる文字を画像認識することによってテキスト情報を抽出する手段、
のいずれか一つを含む構成としてもよい。
本発明において、前記重要区間推定手段は、前記重要箇所指示手段から入力された、コンテンツの重要箇所の近傍にあるテキスト情報を有するコンテンツの区間を推定区間として含める構成としてもよい。
本発明において、前記コンテンツ入力手段からのコンテンツが音声を含み、
前記重要区間推定手段は、前記重要箇所指示手段から入力された、音声の重要箇所の近傍にある発話を推定区間として含める、構成としてもよい。
本発明において、前記重要区間推定手段は、前記重要箇所指示に相当するコンテンツの箇所にテキスト情報が存在しない場合、その直前のテキスト情報を有するコンテンツの区間を推定区間として用いる、ようにしてもよい。
本発明において、前記コンテンツ入力手段からのコンテンツが音声を含み、前記重要区間推定手段は、重要箇所指示に相当する音声の箇所が無音である場合、その直前の発話区間を推定区間として用いるようにしてもよい。
本発明において、前記重要区間推定手段は、重要箇所指示に相当するコンテンツの前後にあるテキスト情報を有するコンテンツの区間を推定区間に含める際、前のほうの区間を優先して含めるようにしてもよい。
本発明において、前記重要区間推定手段は、重要箇所指示に相当する音声の前後の発話を推定区間に含める際、前のほうの発話を優先して含めるようにしてもよい。
本発明において、前記重要区間推定手段は、重要箇所指示に相当するコンテンツの前後にあるテキストが予め定められた単語を含む場合、所定のアルゴリズムに従って推定区間を伸縮するようにしてもよい。
本発明において、前記テキスト要約手段の出力を分析し、要約の精度を評価する要約結果評価手段をさらに備え、前記重要区間推定手段は、前記要約結果の評価に応じて、抽出された重要区間のいずれかまたは複数を伸縮する構成としてもよい。
本発明において、前記要約結果評価手段として、前記テキスト要約手段の出力を分析し、要約率を計算する要約率計算手段を備え、前記重要区間推定手段は、前記要約率が所定の値を下回らない場合には、抽出された重要区間のいずれかを縮小し、前記要約率が所定の値を上回らない場合には、抽出された重要区間のいずれかを拡大する、構成としてもよい。
本発明に係るシステムは、音声信号を入力する音声入力部と、
音声の認識を行い音声認識結果のテキストを出力する音声認識部と、
前記音声入力部から入力された音声を出力する音声出力部と、
重要箇所を指示する重要箇所指示部と、
前記重要箇所指示部より入力された重要箇所のタイミングに対応する音声認識結果のテキストを前記音声認識部から取得する同期部と、
前記同期部によって取得された重要箇所のタイミングに対応する音声認識結果のテキストをもとに、重要区間の初期値を設定する重要区間推定部と、
前記音声認識部から出力された音声認識結果のテキストから、前記重要区間推定部によって出力された重要区間を考慮したテキスト要約処理を行い要約テキストを出力するテキスト要約部と、を備えている。
本発明に係る方法は、コンピュータにより、入力されたコンテンツからテキスト情報を抽出して要約を作成するコンテンツテキスト要約方法であって、
重要箇所の指示を入力する工程と、
前記入力されたコンテンツから抽出されるテキスト情報に対して、前記重要箇所に対応する重要区間を推定する工程と、
前記重要区間を考慮した要約テキストを作成する工程と、を含む。
本発明に係る方法は、時間の経過に伴ってシーケンシャルに提示されるコンテンツを入力するコンテンツ入力工程と、
前記コンテンツ入力工程より入力されたコンテンツからテキスト情報を抽出するテキスト抽出工程と、
重要箇所を指示する重要箇所指示工程と、
前記コンテンツ入力工程より入力されたコンテンツと、前記重要箇所指示工程より入力された重要箇所との同期を取る工程と、を含む。
本発明に係る方法において、前記テキスト抽出工程によって得られたテキスト情報について、予め定められた所定の処理を行い、前記重要箇所指示に対応すると重要区間を推定する重要区間推定工程を含むようにしてもよい。
本発明に係る方法において、前記テキスト抽出工程によって得られたテキスト情報に対して、前記重要区間推定手段によって得られた重要区間を参照してテキストの要約処理を行い、要約テキストを出力するテキスト要約工程を含むようにしてもよい。
本発明において、前記テキスト要約工程は、前記重要区間推定工程によって推定された重要区間に相当するコンテンツから得られたテキストを優先して要約処理を行うようにしてもよい。
本発明に係るプログラムは、入力されたコンテンツからテキスト情報を抽出して要約を作成するコンテンツテキスト要約を行うコンピュータに、
重要箇所の指示を入力する処理と、
前記入力されたコンテンツから抽出されるテキスト情報に対して、前記重要箇所に対応する重要区間を推定する処理と、
前記重要区間を考慮した要約テキストを作成する処理と、を実行させるプログラムよりなる。
本発明に係るプログラムは、時間の経過に伴ってシーケンシャルに提示されるコンテンツを入力するコンテンツ入力処理と、
前記コンテンツ入力処理より入力されたコンテンツからテキスト情報を抽出するテキスト抽出処理と、
重要箇所を指示する重要箇所指示処理と、
前記コンテンツ入力処理より入力されたコンテンツと、前記重要箇所指示処理より入力された重要箇所との同期を取る処理と、をコンピュータに実行させるプログラムよりなる。
本発明に係るプログラムにおいて、前記テキスト抽出処理によって得られたテキスト情報について、予め定められた所定の処理を行い、前記重要箇所指示に対応すると重要区間を推定する重要区間推定処理を前記コンピュータに実行させるようにしてもよい。
本発明に係るプログラムにおいて、前記テキスト抽出処理によって得られたテキスト情報に対して、前記重要区間推定手段によって得られた重要区間を参照してテキストの要約処理を行い、要約テキストを出力するテキスト要約処理を前記コンピュータに実行させるようにしてもよい。
本発明に係るプログラムにおいて、前記テキスト要約処理は、前記重要区間推定処理によって推定された重要区間に相当するコンテンツから得られたテキストを優先して要約処理を行うようにしてもよい。
本発明に係るコンテンツ要約システムは、入力したコンテンツの要約を作成するシステムであって、重要箇所の指示を入力する手段と、前記コンテンツを解析し、前記重要箇所の指示の入力を契機とし、前記契機に対応した、コンテンツの一部を含む要約を生成する手段と、を備え、実時間で提示又は再現されるコンテンツから、前記重要箇所の指示入力に対応したコンテンツ部分を含む要約を生成自在としている。
本発明において、前記コンテンツを解析してテキスト情報を抽出し、前記重要箇所の指示の入力に対応した、テキスト情報を含む要約を生成するようにしてもよい。
本発明において、前記コンテンツの音声情報を音声認識して、テキストに変換し、前記重要箇所の指示の入力に対応した音声認識結果のテキスト情報を含む要約を生成するようにしてもよい。
本発明において、前記コンテンツの音声情報を音声認識してテキストに変換し、前記重要箇所の指示の入力に対応した、音声情報のテキスト、又は、音声情報のテキストと画像を含む要約を生成するようにしてもよい。
本発明において、前記重要箇所の指示の入力として、コンテンツ要約作成のキーとなる情報を入力し、前記コンテンツを解析し、前記キーに対応する情報を含むコンテンツの一部を要約として出力する、ようにしてもよい。
本発明において、前記コンテンツを構成する画像情報を解析してテキストを抽出し、前記重要箇所の指示として入力されたキーに対応した、画像情報を含む要約として生成するようにしてよい。
本発明によれば、比較的長い音声や、人間同士の自然な対話音声であっても、実用上十分な要約を生成することのできる発話内容要約システムを提供できる。
その理由は、本発明においては、複雑な構造や未知の構造を持った音声であっても、ユーザが適切と思われる音声の一部を指定することが可能になることによって、テキスト要約の精度を向上することが可能となるためである。
本発明によれば、音声をリアルタイムに流した場合であっても、ユーザが音声の中の重要箇所を適切に指定できるような発話内容要約システムを提供できる。
その理由は、本発明において、重要箇所は、例えば「点」として指定され、これを「区間」に自動的に拡張するため、ユーザは重要だと考える音声を耳にした、ただその瞬間だけ、重要箇所指示のアクションを採れば済むためである。
さらに、本発明において、重要区間推定は、重要箇所指示が行われたタイミングより過去の音声も遡って対象とするため、既に再生された過去の音声であっても、重要区間推定手段によって、遡って重要区間として切り出され、要約に加えられるためである。
特許文献1のシステムの構成を示す図である。 本発明の第1の実施の形態の構成を示す図である。 本発明の第1の実施の形態の動作を示す流れ図である。 本発明の第2の実施の形態の構成を示す図である。 本発明の第2の実施の形態の動作を示す流れ図である。 本発明の一実施例の構成を示す図である。
符号の説明
100、200、400、600 コンピュータ
101 音声入力手段
102 音声認識手段
103 テキスト要約手段
201 音声入力手段
202 音声認識手段
203 重要箇所指示手段
204 同期手段
205 重要区間推定手段
206 テキスト要約手段
401 音声入力手段
402 音声認識手段
403 重要箇所指示手段
404 同期手段
405 重要区間推定手段
406 テキスト要約手段
407 要約評価手段
601 音声入力部
602 音声認識部
603 音声出力部
604 指示ボタン
605 同期部
606 重要区間推定部
607 テキスト要約部
608 要約評価部
次に、本発明を実施するための最良の形態について図面を参照して詳細に説明する。
本発明に係るコンテンツ要約システムを、発話内容要約システムに適用した実施の形態においては、音声入力手段(201)と、重要箇所指示手段(203)と、重要区間推定手段(205)と、音声認識手段(202)と、テキスト要約手段(206)とを備え、音声入力手段から入力された音声のうち、重要箇所指示手段(203)によって指示された箇所を含む音声区間を、要約に必要な区間と捉え、重要区間推定手段(205)によって適切な区間を推定した後、これを考慮した上で、音声を認識し、さらにテキスト要約を行うよう動作する。ユーザによって別途必要最小限の情報の入力を受け付けることにより、ユーザが指定した音声の任意の箇所を要約に含めることができる。
図2は、本発明の第1の実施の形態の構成を示す図である。本発明の第1の実施の形態は、ユーザが指定した音声の任意の箇所を要約に含めることを可能とした発話内容要約システムである。
図2を参照すると、本発明の第1の実施の形態の発話内容要約システムにおいて、プログラム制御により動作するコンピュータ200は、音声入力手段201と、音声認識手段202と、重要箇所指示手段203と、同期手段204と、重要区間推定手段205と、テキスト要約手段206とを備えている。これらの手段は、それぞれ概略つぎのように動作する。
音声入力手段201は、要約処理の対象となる音声波形信号をデジタルデータ(時間の経過に関連付けされたデジタル信号列)として取り込む。
音声認識手段202は、音声入力手段201によって得られたデジタル信号列に対して音声認識処理を施し、その結果としてテキスト情報を出力する。このとき、認識結果テキストは、元の音声波形が音声認識手段202にて出力された時刻情報と同期が取れるような形式で得られるものとする。
重要箇所指示手段203は、ユーザの操作に基づき、重要箇所指示信号を、同期手段204と重要区間推定手段205へと送る。
同期手段204は、音声入力手段201によって得られた音声波形データと、重要箇所指示手段203によって得られた重要箇所指示信号とが同期できるように調節する。
例えば、
ある音声波形データが音声入力手段201から取り込まれた時刻と、ある重要箇所指示信号が重要箇所指示手段203から入力された時刻とが同じであれば、その各々から同じ相対時刻だけ後に入力された音声波形データと、重要箇所信号とは、同期して得られたと判断する。
このとき、音声入力手段201によって得られた音声波形データと、音声認識手段202によって出力された認識結果とは、互いに同期が取れているため、重要箇所指示手段203によって得られた重要箇所指示信号と、音声認識結果との同期も、間接的に確保される。
重要区間推定手段205は、重要箇所指示手段203からの重要箇所指示信号およびその時刻情報に基づき、その時刻近辺に、音声入力手段201から出力された音声に相当する、音声認識手段202によって得られた音声認識結果テキストについて、予め定められた所定の処理を行い、ユーザが重要箇所指示手段203にて指示したと思しき音声区間を推定する。
テキスト要約手段206は、音声認識手段202によって得られた音声認識結果テキストに対し、重要区間推定手段205によって得られた重要区間を勘案しつつ、予め定められた要約処理を行い、その結果として得られる要約テキストを出力する。
次に図2および図3のフローチャートを参照して本実施の形態の全体の動作について詳細に説明する。
まず、音声入力手段201から音声信号が入力される(図3のステップA1)。
次に、音声認識手段202が入力された音声信号を音声認識し、音声認識結果テキストを出力する(ステップA2)。
ユーザが重要箇所指示手段203を用いて、重要箇所指示信号を発信させる(ステップA3)と、これを受けて、重要区間推定手段205が動作し、同期手段204によって重要箇所指示信号に相当する時刻、およびその前後の音声認識結果テキストを取得し、これを入力として、重要区間の推定処理を行う(ステップA4)。
最後に、テキスト要約手段206が、推定された重要区間を考慮しつつ、音声認識結果テキストに、テキスト要約処理を施し、発話内容要約テキストが出力される(ステップA5)。
次に、本実施の形態の作用効果について説明する。
本実施の形態では、ユーザが重要箇所指示信号を入力することにより、テキスト要約処理に音声の任意の箇所について考慮するよう指示を与えることができる。このため、テキスト要約の品質や、入力音声の文章構造の複雑さに寄らず、ユーザが求める任意の箇所の音声を要約に含めることができる。
また、本実施の形態では、重要箇所指示信号が入力された、まさにその時点の音声だけでなく、その前後も含めて要約の際に重視する区間(重要区間)として扱われるため、ユーザは、区間でなく点を指示するだけで、ユーザが求める任意の箇所の音声を要約に含めることができる。
また同時に、ある音声が発話されてから、ユーザがその音声を指示しようとするまでに多少のタイムラグがあっても、その音声を要約に含めることができる。
すなわち、特に、リアルタイム(実時間)に音声が入力されているような状況において、ユーザが重要箇所を指示する行為を簡便に行えるようにできる。
次に本発明の第2の実施の形態について説明する。図4は、本発明の第2の実施の形態のシステム構成を示す図である。図4を参照すると、本発明の第2の実施の形態において、プログラム制御により動作するコンピュータ400が、音声入力手段401と、音声認識手段402と、重要箇所指示手段403と、同期手段404と、重要区間推定手段405と、テキスト要約手段406と、要約評価手段407とを備えている。
要約評価手段407が新たに追加されており、これ以外は、前記第1の実施の形態と同じ構成である。以下では、前記第1の実施の形態との相違点を説明し、同一部分の説明は重複を回避するため、適宜省略する。
重要区間推定手段405は、前記第1の実施の形態の重要区間推定手段とほぼ同一の動作をし、重要箇所指示手段403からの重要箇所指示信号およびその時刻情報に基づき、その時刻近辺に音声入力手段401から出力された音声に相当する、音声認識手段402によって得られた音声認識結果テキストについて所定の処理を行い、ユーザが重要箇所指示にて指示したと思しき音声区間を推定する。
本実施の形態においては、重要区間推定手段405は、要約評価手段407によって得られた要約の評価を入力とし、その評価に基づいた重要区間の推定処理をさらに行う。
要約評価手段407は、テキスト要約手段406が生成した要約テキストを予め定められた基準で評価し、もし要約テキストに改善の余地ありと判断すれば、重要区間推定手段405に必要な情報を与え、再度、重要区間の推定処理を行う。
次に図4および図5のフローチャートを参照して本実施の形態の全体の動作について詳細に説明する。
音声入力手段401から入力された音声データが、重要箇所指示手段403から入力された重要箇所指示信号を参考に、テキスト要約手段406によって要約されるまでの流れは、図3に示した前記第1の実施の形態の処理手順と同様である(図5のステップB1〜B5)。
本実施の形態においては、さらに次のような動作を行う。
テキスト要約手段406が生成した要約テキストは、要約評価手段407によって予め定められた基準によって評価される(ステップB6)。この評価の結果、改善の余地ありと判断された場合(ステップB7)、ステップB4に戻り、重要区間推定手段405が再び起動される。
要約評価手段407による評価基準としては、例えば、要約率を利用することが考えられる。要約率とは、元テキストに対する要約テキストのサイズ(バイト数か文字数を用いることが多い)の比率である。
要約率が予め与えられた閾値よりも十分低い場合、より広い区間を重要区間とするよう重要区間推定手段405を動作させ、逆に要約率が十分高い場合には、より狭い区間を重要区間とするように、重要区間推定手段405を動作させる。
次に、本実施の形態の作用効果について説明する。
前記第1の実施の形態における重要区間推定手段205での重要区間推定は、主として、重要箇所指示手段203から入力された重要箇所指示に基づくものであった。この場合、局所的な情報による区間推定しか行えない。
これに対して、本発明の第2の実施の形態の重要区間推定手段405は、要約評価手段407によって与えられる情報によって、要約テキスト全体を見渡した区間推定が行えるため、より精度の高い要約テキストを得ることが出来る。
なお、前記第1及び第2の実施の形態では、入力されたコンテンツ(音声)からテキスト情報を抽出するテキスト抽出手段として、音声認識手段を用いた例に即して説明したが、本発明は、かかる構成にのみ制限されるものではない。
音声認識手段以外にも、テキストを抽出できる装置であれば、任意のテキスト抽出手段を用いることができる。
テキスト抽出手段は、コンテンツとして与えられた文字情報をテキスト情報として抽出する。あるいは、テキスト抽出手段は、メタ情報を含むマルチメディア信号からメタ情報を読み出すことによってテキスト情報を抽出する。あるいは、テキスト抽出手段が、像信号からクローズドキャプション信号を読み出すことによってテキスト情報を抽出する。
あるいは、テキスト抽出手段が、映像に含まれる文字を画像認識することによってテキスト情報を抽出する。以下、具体的な実施例に即して説明する。
図6は、本発明の一実施例の構成を示す図である。図6に示すように、本実施例において、コンピュータ600は、音声入力部601と、音声認識部602と、音声出力部603と、指示ボタン604と、同期部605と、重要区間推定部606と、テキスト要約部607と、要約評価部608を備えている。
音声入力部601から音声波形が入力される。この音声は、直ちに、音声認識部602に送られる。音声認識部602では、予め与えられたモデルと音声とのマッチング処理が行われ、音声認識結果テキストが出力される。
一方、音声入力部601から入力された音声波形は、直ちに音声出力部603に送られ、スピーカー等を通じてユーザの耳に届く。
ユーザはその音声を聞きながら、任意のタイミングで指示ボタン604を押下する。
指示ボタン604の押下を検知した同期部605は、まず、その押下タイミングに相当する音声を求める。
音声入力部601から入力された音声が直ちに、音声出力部603に送られ、ユーザの耳に届いているとすれば、この押下タイミングに相当する音声は、まさにその時刻に入力された音声ということになる。
さらに同期部605は、音声認識部602の出力から、押下タイミングに相当する音声に対する音声認識結果テキストを得る。
重要区間推定部606は、同期部605によって取得した、指示ボタン604の押下タイミングに対応する認識結果テキストをもとに、重要区間の初期値を設定する。例えば、当該認識結果テキストを含む一つの発声区間(連続する非ノイズ区間)を重要区間の初期値に設定する。
あるいは、当該認識結果テキストを含む単語や文節、文(句読点や終助詞によって区切られた一連の単語列)に相当する音声区間を重要区間の初期値としてもよい。
また、このとき、音声認識部602から取得できる非テキスト情報を利用してもよい。例えば、予め定められた認識尤度に満たない認識結果テキストはノイズを誤認識したものである可能性が高いため、そのテキストに相当する音声区間は、重要区間の初期値設定の考慮から外す、といった手法が用いられる。
重要区間推定部606は、必要に応じて重要区間を初期値から伸縮する。伸縮を行うか否かの判断基準としては、例えば、現在の重要区間の中に、予め定められた語彙が現れたか否かをもって判定する手法等が用いられる。
例えば重要区間から得られる認識結果テキストに、機能語が一つも含まれていなければ、その前後の区間を重要区間に組み入れることを検討する。
逆に、重要区間から得られる認識結果テキストが「えっと」などのフィラーを含むのであれば、これらフィラーに相当する音声区間を重要区間から削除することを検討する。
また、要約する内容がある程度限定的である場合には、
・予め定められた指示語(「それは」、「すなわち」、「つまり」、「確認しますが」)の有無や、
・電話番号、人名、組織名、製品名などのより限定的な単語の有無
を用いることで、より精度のよい重要区間推定が可能である。
また別の判断基準としては、重要区間の中に、有効な音声認識テキストが存在するかどうかによって判定する手法を用いてもよい。
指示ボタン604の押下タイミングによっては、該当する音声がノイズであるなどの理由から、有効な認識結果テキストが得られないことがある。
この場合は、該当音声の直前または直後にある認識結果テキストを含む音声区間を求め、これを重要区間とする。
直前および直後のいずれを選ぶかの基準としては、例えば、
(a)より押下タイミングに近い方を選ぶ、
(b)前後区間に属すテキストの属性(予め与えられた重要度や品詞、「なぜなら」などの文法的キーワードを含むか否か、など)を比較して一般的な重要度の高い方を選ぶ、
(c)音声認識処理の精度がより良い方を選ぶ、
などを用いることができる。
また、ユーザが指示ボタンを押下するタイミングは、目的音声を聞いたタイミングより若干遅れるというヒューリスティックを用いて、常に、前の方を選ぶ方法を用いてもよい。前後両方の区間を重要区間としてもよいことは勿論である。
重要区間の伸縮方法としては、例えば、その区間の前後の予め定められた時間または単語/文数に相当する音声の分だけ伸縮する方法が用いられる。
例えば、区間を伸張する際に、前後の一発話ずつを現在の区間に組み入れる。
別の重要区間の伸縮方法としては、重要区間の初期値の近傍(これもまた時間ないし発話の個数によって定義される)に予め定められたキーワードが現れた場合に、そのキーワードと共起することが知られている単語群のいずれかが属す音声区間まで伸縮する方法が用いられる。
例えば、重要区間に「電話番号」が現れたとき、その直後の発話に電話番号らしき数字列が現れるなら、その発話区間までを、重要区間に組み入れる。
この方法はヒューリスティックを必要とするため利用できる場面が限られるが、精度は非常に高い。
また、別の重要区間の伸縮方法としては、重要区間の初期値の近傍に予め定められた指示語(「それは」、「すなわち」、「つまり」、「確認しますが」)などが現れた場合、その直後の音声区間を重要区間に組み入れる手法が用いられる。
この手法は、前記共起キーワードを用いる方法とよく似ているが、利用する知識が比較的汎用的であるため利用可能範囲が広い。
さらにまた、別の重要区間の伸縮方法としては、重要区間の近傍に予め定義された音響的に特徴的な現象(パワーやピッチ、発話速度の変化など)が見られた場合、その近傍の音声区間を重要区間に組み入れる手法を用いてもよい。
例えば予め定められた閾値より大きなパワーで発声された音声は、その発話内容を強調したいという話者の意図を表している可能性が高い。
重要区間推定部606は、最終的に最も適切と思しき、区間を重要区間として、テキスト要約部607に通知する。
場合によっては、初期値として設定した区間が最適な重要区間として出力されることもある。
テキスト要約部607は、音声認識部602から出力された音声認識結果テキストから、重要区間推定部606によって出力された重要区間を考慮して、テキスト要約処理を行い、要約テキストを出力する。
重要区間を考慮したテキスト要約の手法としては、例えば、通常のテキスト要約と同様にテキストの各部位の重要度を求める際に、重要区間推定部606が重要区間と推定した区間に相当するテキスト部位の重要度にバイアスを加える手法等が用いられる。
また別の重要区間を考慮したテキスト要約の方法としては、例えば、重要区間として得られたいくつかの区間のみを利用してテキスト要約を行うという方法が用いられる。この場合、重要区間推定部606は区間推定の際に若干広めの区間を推定するよう調整すると好適である。
要約評価部608は、テキスト要約部607が出力した要約テキストを所定の基準で評価する。
もし要約テキストが予め与えられた基準を満たさない場合には、再び、重要区間推定部606が動作し、重要区間を、再度、伸縮させ、テキスト要約部607に送る。これを何度か繰り返すことで、質の良い要約テキストを得ることが出来る。
繰り返し回数としては、
・要約テキストが予め与えられた基準を満たすまで繰り返す方法、
・所定の処理時間まで繰り返す方法、
・所定の回数だけ繰り返す方法
などを用いることができる。
要約テキストの評価基準としては、例えば、要約率が考えられる。
テキスト要約における要約率とは、元のテキストサイズに対する要約テキストのサイズの比率である。サイズは、通常、文字数単位で数えられる。
本実施例においては、音声入力部601から入力されたすべての音声区間を、音声認識部602で音声認識した結果として得られた音声認識結果テキストの総文字数と、テキスト要約部607が出力した要約テキストの文字数との比率となる。
評価基準として要約率を用いた場合、例えば、テキスト要約部607が出力した要約テキストの要約率が、予め定められた目標要約率を上回っていれば、重要区間を縮小するように検討し、逆に、目標要約率を大きく下回っていれば、重要区間の拡大を検討する。
本発明によれば、人間同士の自然な発話や、ある程度長い音声に対して、より適切な要約テキストを生成することが出来るので、例えば、
・会議録の作成や
・講演の聴講記録の作成、
・電話応対の応対内容の覚書や
・記録文書の作成、
・テレビ番組の名場面集の作成、
などといった用途に適用可能である。
また本発明は、テキスト要約だけでなく、テキスト検索などにも適用可能である。この場合、図4のテキスト要約手段406は、検索クエリ生成手段に置き換えられる。
検索クエリ生成手段の動作は、例えば、重要区間に含まれるテキストから自立語を抽出し、これらの論理積を検索クエリとして生成する。
その後、検索クエリを、任意の検索エンジンに与えることによって、ユーザに簡便な操作による検索機能を提供することができる。
また、図4の要約評価手段407のかわりに、検索結果評価手段を用意することによって、例えば推定された重要区間での検索結果が一つも見つからない場合に、重要区間推定をやり直す(区間を拡大する)ように工夫することもできる。
本発明において、コンテンツの音声情報を音声認識してテキストに変換し、前記重要箇所の指示の入力に対応した、音声認識結果のテキストと、該音声に対応する画像情報を含む要約を生成するようにしてもよい。本発明において、前記重要箇所の指示の入力として、コンテンツ要約作成のキー(タイミング情報、テキスト情報、属性情報)となる情報を入力し、前記コンテンツを解析し、前記キーに対応する情報を含むコンテンツの一部を要約として出力する、ようにしてもよい。
本発明の全開示(請求の範囲を含む)の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の請求の範囲の枠内において種々の開示要素の多様な組み合わせないし選択が可能である。

Claims (18)

  1. 入力された、時間の経過に関連付けられたコンテンツからテキスト情報を抽出するテキスト抽出手段と、
    テキストの要約処理を行い要約テキストを出力するテキスト要約手段と、
    を備えたコンテンツ要約システムであって、
    重要箇所を指示する重要箇所指示手段と、
    前記コンテンツと、前記重要箇所指示手段より入力された重要箇所との同期を取る同期手段と、
    前記テキスト抽出手段によって得られたテキスト情報について、前記重要箇所として指示したと推定される重要区間を導出する重要区間推定手段と、
    を備え、
    前記テキスト要約手段は、前記テキスト抽出手段によって得られたテキスト情報に対して、前記重要区間推定手段によって得られた重要区間を参照して、テキストの要約処理を行い、要約テキストを出力する、ことを特徴とするコンテンツ要約システム。
  2. 前記テキスト要約手段は、前記重要区間推定手段によって推定された重要区間に相当するコンテンツから得られたテキストを優先して要約処理を行う、ことを特徴とする請求項に記載のコンテンツ要約システム。
  3. 前記コンテンツ入力手段より入力されたコンテンツが音声を含み、
    前記テキスト抽出手段は、コンテンツとして入力された音声信号を音声認識することによってテキスト情報を抽出する音声認識手段を備えている、ことを特徴とする請求項1又は2に記載のコンテンツ要約システム。
  4. 前記テキスト抽出手段は、
    コンテンツとして与えられた文字情報をテキスト情報として抽出する手段、
    メタ情報を含むマルチメディア信号からメタ情報を読み出すことによってテキスト情報を抽出する手段、
    像信号からクローズドキャプション信号を読み出すことによってテキスト情報を抽出する手段、
    映像に含まれる文字を画像認識することによってテキスト情報を抽出する手段、
    のうちのいずれか一の手段を含む、ことを特徴とする請求項1又は2に記載のコンテンツ要約システム。
  5. 前記重要区間推定手段は、前記重要箇所指示手段から入力された、コンテンツの重要箇所の近傍にあるテキスト情報を有するコンテンツの区間を推定区間として含める、ことを特徴とする請求項1又は2に記載のコンテンツ要約システム。
  6. 前記コンテンツ入力手段からのコンテンツが音声を含み、
    前記重要区間推定手段は、前記重要箇所指示手段から入力された、音声の重要箇所の近傍にある発話を推定区間として含める、ことを特徴とする請求項1又は2に記載のコンテンツ要約システム。
  7. 前記重要区間推定手段は、前記重要箇所指示に相当するコンテンツの箇所にテキスト情報が存在しない場合、その直前のテキスト情報を有するコンテンツの区間を推定区間として用いる、ことを特徴とする請求項1又は2に記載のコンテンツ要約システム。
  8. 前記コンテンツ入力手段からのコンテンツが音声を含み、
    前記重要区間推定手段は、重要箇所指示に相当する音声の箇所が無音である場合、その直前の発話区間を推定区間として用いる、ことを特徴とする請求項1又は2に記載のコンテンツ要約システム。
  9. 前記重要区間推定手段は、重要箇所指示に対応するコンテンツの前後にあるテキスト情報を有するコンテンツの区間を推定区間に含める際、時間的に前のほうの区間を優先して含めることを特徴とする請求項に記載のコンテンツ要約システム。
  10. 前記重要区間推定手段は、重要箇所指示に相当する音声の、前後の発話を推定区間に含める際、前のほうの発話を優先して含めることを特徴とする請求項に記載のコンテンツ要約システム。
  11. 前記重要区間推定手段は、重要箇所指示に相当するコンテンツの前後にあるテキストが予め定められた単語を含む場合、推定区間を伸縮することを特徴とする請求項1、2乃至10のいずれか一に記載のコンテンツ要約システム。
  12. 前記テキスト要約手段の出力を分析し、要約の精度を評価する要約結果評価手段をさらに備え、
    前記重要区間推定手段は、前記要約結果の評価に応じて、抽出された重要区間のいずれかまたは複数を伸縮することを特徴とする請求項1、2乃至11のいずれか一に記載のコンテンツ要約システム。
  13. 前記要約結果評価手段として、前記テキスト要約手段の出力を分析し、要約率を計算する要約率計算手段を備え、
    前記重要区間推定手段は、前記要約率が所定の値を下回らない場合には、抽出された重要区間のいずれかを縮小し、前記要約率が所定の値を上回らない場合には、抽出された重要区間のいずれかを拡大する、ことを特徴とする請求項1に記載のコンテンツ要約システム。
  14. 時間の経過に関連付けて提示されるコンテンツを入力するコンテンツ入力手段と、
    前記コンテンツ入力手段より入力されたコンテンツからテキスト情報を抽出するテキスト抽出手段と、
    重要箇所の指示を入力する重要箇所指示手段と、
    前記コンテンツ入力手段より入力されたコンテンツと、前記重要箇所指示手段より入力された重要箇所指示との同期を取る同期手段と、
    コンテンツとして音声信号を入力する音声入力部と、
    前記音声入力部からの入力音声信号の認識を行い音声認識結果のテキストを出力する音声認識部と、
    前記音声入力部から入力された音声のうち、前記重要箇所を指示する手段によって指示された箇所を含む音声区間を、要約に必要な区間と捉え、前記重要区間を推定する手段によって適切な区間を推定し、これを考慮した上で、音声を認識し、さらにテキスト要約を行うことで発話内容の要約を作成し、ユーザによって別途必要最小限の情報の入力を受け付けることにより、ユーザが指定した音声の任意の箇所を要約に含めることを可能としてなる、ことを特徴とするコンテンツ要約システム。
  15. 時間の経過に関連付けて提示されるコンテンツを入力するコンテンツ入力手段と、
    前記コンテンツ入力手段より入力されたコンテンツからテキスト情報を抽出するテキスト抽出手段と、
    重要箇所の指示を入力する重要箇所指示手段と、
    前記コンテンツ入力手段より入力されたコンテンツと、前記重要箇所指示手段より入力された重要箇所指示との同期を取る同期手段と、
    コンテンツとして音声信号を入力する音声入力部と、
    前記音声入力部からの入力音声信号の認識を行い音声認識結果のテキストを出力する音声認識部と、
    前記音声入力部から入力された音声を出力する音声出力部と、
    を備え、
    前記重要箇所を指示する手段は、ユーザが重要箇所を指示する操作ボタンを備え、
    前記操作ボタンより入力された重要箇所のタイミングに対応する音声認識結果のテキストを、前記音声認識部から取得する同期部を備え、
    前記重要区間を推定する手段は、前記同期部によって取得された重要箇所のタイミングに対応する音声認識結果のテキストをもとに、重要区間の初期値を設定し、
    前記要約テキストを作成する手段は、前記音声認識部から出力された音声認識結果のテキストから、前記重要区間を考慮したテキスト要約処理を行い要約テキストを出力する、ことを特徴とするコンテンツ要約システム。
  16. 前記テキスト抽出手段によって得られたテキスト情報について、予め定められた所定の処理を行い、前記重要箇所として指示したと推定される重要区間を導出する重要区間推定手段と、
    テキストの要約処理を行い要約テキストを出力するテキスト要約手段と、
    を備え、
    前記テキスト要約手段は、前記テキスト抽出手段によって得られたテキスト情報に対して、前記重要区間推定手段によって得られた重要区間を参照して、テキストの要約処理を行い、要約テキストを出力する、ことを特徴とする請求項14又は15記載のコンテンツ要約システム。
  17. コンピュータにより、入力されたコンテンツからテキスト情報を抽出して要約を作成するコンテンツ要約方法であって、
    時間の経過に伴ってシーケンシャルに提示されるコンテンツを入力するコンテンツ入力工程と、
    前記コンテンツ入力工程より入力されたコンテンツからテキスト情報を抽出するテキスト抽出工程と、
    テキストの要約処理を行い要約テキストを出力するテキスト要約工程と、
    重要箇所を指示する重要箇所指示工程と、
    前記コンテンツ入力工程より入力されたコンテンツと、前記重要箇所指示工程より入力された重要箇所との同期を取る工程と、
    前記テキスト抽出工程によって得られたテキスト情報について、予め定められた所定の処理を行い、前記重要箇所として指示したと推定される重要区間を導出する重要区間推定工程と、
    を含み、
    前記テキスト要約工程は、前記テキスト抽出工程によって得られたテキスト情報に対して、前記重要区間推定工程によって得られた重要区間を参照して、テキストの要約処理を行い、要約テキストを出力する、ことを特徴とするコンテンツ要約方法。
  18. 入力されたコンテンツからテキスト情報を抽出して要約を作成するコンテンツテキスト要約を行うコンピュータに、
    時間の経過に伴ってシーケンシャルに提示されるコンテンツを入力するコンテンツ入力処理と、
    前記コンテンツ入力処理より入力されたコンテンツからテキスト情報を抽出するテキスト抽出処理と、
    重要箇所を指示する重要箇所指示処理と、
    前記コンテンツ入力処理より入力されたコンテンツと、前記重要箇所指示処理より入力された重要箇所との同期を取る処理と、
    前記テキスト抽出処理によって得られたテキスト情報について、予め定められた所定の処理を行い、前記重要箇所として指示したと推定される重要区間を導出する重要区間推定処理と、
    テキストの要約処理を行い要約テキストを出力するテキスト要約処理であって、前記テキスト抽出処理によって得られたテキスト情報に対して、前記重要区間推定処理によって得られた重要区間を参照して、テキストの要約処理を行い、要約テキストを出力するテキスト要約処理と、
    をコンピュータに実行させるプログラム。
JP2008540951A 2006-10-23 2007-10-17 コンテンツ要約システムと方法とプログラム Active JP5104762B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008540951A JP5104762B2 (ja) 2006-10-23 2007-10-17 コンテンツ要約システムと方法とプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2006287562 2006-10-23
JP2006287562 2006-10-23
PCT/JP2007/070248 WO2008050649A1 (fr) 2006-10-23 2007-10-17 Système, procédé et programme de récapitulation de contenu
JP2008540951A JP5104762B2 (ja) 2006-10-23 2007-10-17 コンテンツ要約システムと方法とプログラム

Publications (2)

Publication Number Publication Date
JPWO2008050649A1 JPWO2008050649A1 (ja) 2010-02-25
JP5104762B2 true JP5104762B2 (ja) 2012-12-19

Family

ID=39324448

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008540951A Active JP5104762B2 (ja) 2006-10-23 2007-10-17 コンテンツ要約システムと方法とプログラム

Country Status (4)

Country Link
US (1) US20100031142A1 (ja)
JP (1) JP5104762B2 (ja)
CN (1) CN101529500B (ja)
WO (1) WO2008050649A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11281707B2 (en) 2017-12-01 2022-03-22 Canon Kabushiki Kaisha System, summarization apparatus, summarization system, and method of controlling summarization apparatus, for acquiring summary information

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7920723B2 (en) * 2005-11-18 2011-04-05 Tessera Technologies Ireland Limited Two stage detection for photographic eye artifacts
JP4636101B2 (ja) * 2008-03-21 2011-02-23 ブラザー工業株式会社 プログラム及び情報処理装置
US8954328B2 (en) * 2009-01-15 2015-02-10 K-Nfb Reading Technology, Inc. Systems and methods for document narration with multiple characters having multiple moods
US8554542B2 (en) * 2010-05-05 2013-10-08 Xerox Corporation Textual entailment method for linking text of an abstract to text in the main body of a document
US8788260B2 (en) * 2010-05-11 2014-07-22 Microsoft Corporation Generating snippets based on content features
US8392186B2 (en) 2010-05-18 2013-03-05 K-Nfb Reading Technology, Inc. Audio synchronization for document narration with user-selected playback
CN102385861B (zh) 2010-08-31 2013-07-31 国际商业机器公司 一种用于从语音内容生成文本内容提要的系统和方法
JP5510310B2 (ja) * 2010-12-24 2014-06-04 富士通株式会社 発話抽出プログラム、発話抽出方法、発話抽出装置
US8825478B2 (en) * 2011-01-10 2014-09-02 Nuance Communications, Inc. Real time generation of audio content summaries
US20120197630A1 (en) * 2011-01-28 2012-08-02 Lyons Kenton M Methods and systems to summarize a source text as a function of contextual information
US8484313B2 (en) * 2011-05-25 2013-07-09 Google Inc. Using a closed caption stream for device metadata
US9043444B2 (en) 2011-05-25 2015-05-26 Google Inc. Using an audio stream to identify metadata associated with a currently playing television program
US10177926B2 (en) 2012-01-30 2019-01-08 International Business Machines Corporation Visualizing conversations across conference calls
US10629188B2 (en) * 2013-03-15 2020-04-21 International Business Machines Corporation Automatic note taking within a virtual meeting
JP6040819B2 (ja) * 2013-03-21 2016-12-07 富士ゼロックス株式会社 情報処理装置及びプログラム
US10366126B2 (en) 2014-05-28 2019-07-30 Hewlett-Packard Development Company, L.P. Data extraction based on multiple meta-algorithmic patterns
KR20150138742A (ko) * 2014-06-02 2015-12-10 삼성전자주식회사 컨텐츠 처리 방법 및 그 전자 장치
WO2015191061A1 (en) * 2014-06-11 2015-12-17 Hewlett-Packard Development Company, L.P. Functional summarization of non-textual content based on a meta-algorithmic pattern
CN108353213A (zh) * 2015-10-30 2018-07-31 惠普发展公司,有限责任合伙企业 视频内容概括和类选择
US10043517B2 (en) * 2015-12-09 2018-08-07 International Business Machines Corporation Audio-based event interaction analytics
US9881614B1 (en) * 2016-07-08 2018-01-30 Conduent Business Services, Llc Method and system for real-time summary generation of conversation
US9934785B1 (en) * 2016-11-30 2018-04-03 Spotify Ab Identification of taste attributes from an audio signal
CN107609843A (zh) * 2017-09-26 2018-01-19 北京华云智汇科技有限公司 合同更新方法及服务器
CN107579990A (zh) * 2017-09-26 2018-01-12 北京华云智汇科技有限公司 合同管理方法及服务器
CN108346034B (zh) * 2018-02-02 2021-10-15 深圳市鹰硕技术有限公司 一种会议智能管理方法及系统
US10742581B2 (en) * 2018-07-02 2020-08-11 International Business Machines Corporation Summarization-based electronic message actions
JP6795668B1 (ja) * 2019-10-24 2020-12-02 日本金銭機械株式会社 議事録作成システム
KR20230124232A (ko) 2022-02-18 2023-08-25 홍순명 클로로겐산 고함유 액상 커피의 제조방법

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05181491A (ja) * 1991-12-30 1993-07-23 Sony Corp 音声合成装置
JP2000010578A (ja) * 1998-06-19 2000-01-14 Ntt Data Corp 音声メッセージ送受信システム、及び音声メッセージ処理方法
JP2000149511A (ja) * 1998-11-02 2000-05-30 Sharp Corp 音声録音再生機能を有する電子機器
JP2002132282A (ja) * 2000-10-20 2002-05-09 Oki Electric Ind Co Ltd 電子テキスト読み上げ装置
JP2003022094A (ja) * 2001-07-06 2003-01-24 Toshiba Corp 音声記録再生装置
JP2003150614A (ja) * 2001-11-16 2003-05-23 Nippon Telegr & Teleph Corp <Ntt> テキスト要約方法及び装置及びテキスト要約プログラム及びテキスト要約プログラムを格納した記憶媒体
JP2003255979A (ja) * 2002-03-06 2003-09-10 Nippon Telegr & Teleph Corp <Ntt> データ編集方法、データ編集装置、データ編集プログラム
JP2005267278A (ja) * 2004-03-18 2005-09-29 Fuji Xerox Co Ltd 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3579204B2 (ja) * 1997-01-17 2004-10-20 富士通株式会社 文書要約装置およびその方法
JP3607462B2 (ja) * 1997-07-02 2005-01-05 松下電器産業株式会社 関連キーワード自動抽出装置及びこれを用いた文書検索システム
JP3642019B2 (ja) * 2000-11-08 2005-04-27 日本電気株式会社 Avコンテンツ自動要約システム及びavコンテンツ自動要約方法
US6925455B2 (en) * 2000-12-12 2005-08-02 Nec Corporation Creating audio-centric, image-centric, and integrated audio-visual summaries
JP2002189728A (ja) * 2000-12-21 2002-07-05 Ricoh Co Ltd マルチメディア情報編集装置、その方法および記録媒体並びにマルチメディア情報配信システム
US20020087325A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Dialogue application computer platform
US7310687B2 (en) * 2001-03-23 2007-12-18 Cisco Technology, Inc. Methods and systems for managing class-based condensation
US7143353B2 (en) * 2001-03-30 2006-11-28 Koninklijke Philips Electronics, N.V. Streaming video bookmarks
US7039585B2 (en) * 2001-04-10 2006-05-02 International Business Machines Corporation Method and system for searching recorded speech and retrieving relevant segments
DE60204827T2 (de) * 2001-08-08 2006-04-27 Nippon Telegraph And Telephone Corp. Anhebungsdetektion zur automatischen Sprachzusammenfassung
GB2388739B (en) * 2001-11-03 2004-06-02 Dremedia Ltd Time ordered indexing of an information stream
US7415670B2 (en) * 2001-11-19 2008-08-19 Ricoh Co., Ltd. Printer with audio/video localization
GB2390704A (en) * 2002-07-09 2004-01-14 Canon Kk Automatic summary generation and display
AU2003284271A1 (en) * 2002-10-16 2004-05-04 Suzanne Jaffe Stillman Interactive vending system(s) featuring product customization, multimedia, education and entertainment, with business opportunities, models, and methods
US20040203621A1 (en) * 2002-10-23 2004-10-14 International Business Machines Corporation System and method for queuing and bookmarking tekephony conversations
US7376893B2 (en) * 2002-12-16 2008-05-20 Palo Alto Research Center Incorporated Systems and methods for sentence based interactive topic-based text summarization
JP4127668B2 (ja) * 2003-08-15 2008-07-30 株式会社東芝 情報処理装置、情報処理方法、およびプログラム
CN1614585A (zh) * 2003-11-07 2005-05-11 摩托罗拉公司 文本概括
EP1708101B1 (en) * 2004-01-14 2014-06-25 Mitsubishi Denki Kabushiki Kaisha Summarizing reproduction device and summarizing reproduction method
US20060004579A1 (en) * 2004-07-01 2006-01-05 Claudatos Christopher H Flexible video surveillance
US7574471B2 (en) * 2004-09-02 2009-08-11 Gryphon Networks Corp. System and method for exchanging information with a relationship management system
US7788592B2 (en) * 2005-01-12 2010-08-31 Microsoft Corporation Architecture and engine for time line based visualization of data
US7907705B1 (en) * 2006-10-10 2011-03-15 Intuit Inc. Speech to text for assisted form completion

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05181491A (ja) * 1991-12-30 1993-07-23 Sony Corp 音声合成装置
JP2000010578A (ja) * 1998-06-19 2000-01-14 Ntt Data Corp 音声メッセージ送受信システム、及び音声メッセージ処理方法
JP2000149511A (ja) * 1998-11-02 2000-05-30 Sharp Corp 音声録音再生機能を有する電子機器
JP2002132282A (ja) * 2000-10-20 2002-05-09 Oki Electric Ind Co Ltd 電子テキスト読み上げ装置
JP2003022094A (ja) * 2001-07-06 2003-01-24 Toshiba Corp 音声記録再生装置
JP2003150614A (ja) * 2001-11-16 2003-05-23 Nippon Telegr & Teleph Corp <Ntt> テキスト要約方法及び装置及びテキスト要約プログラム及びテキスト要約プログラムを格納した記憶媒体
JP2003255979A (ja) * 2002-03-06 2003-09-10 Nippon Telegr & Teleph Corp <Ntt> データ編集方法、データ編集装置、データ編集プログラム
JP2005267278A (ja) * 2004-03-18 2005-09-29 Fuji Xerox Co Ltd 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11281707B2 (en) 2017-12-01 2022-03-22 Canon Kabushiki Kaisha System, summarization apparatus, summarization system, and method of controlling summarization apparatus, for acquiring summary information

Also Published As

Publication number Publication date
CN101529500A (zh) 2009-09-09
WO2008050649A1 (fr) 2008-05-02
CN101529500B (zh) 2012-05-23
JPWO2008050649A1 (ja) 2010-02-25
US20100031142A1 (en) 2010-02-04

Similar Documents

Publication Publication Date Title
JP5104762B2 (ja) コンテンツ要約システムと方法とプログラム
JP4600828B2 (ja) 文書対応付け装置、および文書対応付け方法
JP4757599B2 (ja) 音声認識システムと音声認識方法およびプログラム
US8386265B2 (en) Language translation with emotion metadata
US7487094B1 (en) System and method of call classification with context modeling based on composite words
JP6323947B2 (ja) 音響イベント認識装置、及びプログラム
WO2006054724A1 (ja) 音声認識装置及び方法ならびにプログラム
US11942093B2 (en) System and method for simultaneous multilingual dubbing of video-audio programs
JP2007189343A (ja) 映像要約装置、映像要約方法および映像要約プログラム
JP2012181358A (ja) テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム
Aksënova et al. How might we create better benchmarks for speech recognition?
JP2008152605A (ja) プレゼンテーション解析装置およびプレゼンテーション視聴システム
US8892435B2 (en) Text data processing apparatus, text data processing method, and recording medium storing text data processing program
JP7107229B2 (ja) 情報処理装置および情報処理方法、並びにプログラム
WO2013000868A1 (en) Speech-to-text conversion
JP6327745B2 (ja) 音声認識装置、及びプログラム
JP2010011409A (ja) 映像ダイジェスト装置及び映像編集プログラム
JP2009042968A (ja) 情報選別システム、情報選別方法及び情報選別用プログラム
JP3437617B2 (ja) 時系列データ記録再生装置
JP5396530B2 (ja) 音声認識装置および音声認識方法
JP5160594B2 (ja) 音声認識装置および音声認識方法
JP4934090B2 (ja) 番組登場人物抽出装置及び番組登場人物抽出プログラム
JP2021009253A (ja) プログラム、情報処理装置、及び情報処理方法
KR102274275B1 (ko) 음성파일이 연동된 텍스트 링크 생성 어플리케이션 및 방법
JP2003099086A (ja) 言語・音響モデル作成方法および言語・音響モデル作成装置ならびに言語・音響モデル作成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100810

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120612

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120813

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120904

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120917

R150 Certificate of patent or registration of utility model

Ref document number: 5104762

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151012

Year of fee payment: 3