JP6110389B2 - 電子文書の内容を自動的に要約するための方法、有形のコンピュータ可読媒体及びシステム - Google Patents

電子文書の内容を自動的に要約するための方法、有形のコンピュータ可読媒体及びシステム Download PDF

Info

Publication number
JP6110389B2
JP6110389B2 JP2014535720A JP2014535720A JP6110389B2 JP 6110389 B2 JP6110389 B2 JP 6110389B2 JP 2014535720 A JP2014535720 A JP 2014535720A JP 2014535720 A JP2014535720 A JP 2014535720A JP 6110389 B2 JP6110389 B2 JP 6110389B2
Authority
JP
Japan
Prior art keywords
words
score
electronic document
sentence
phrases
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014535720A
Other languages
English (en)
Other versions
JP2014528620A (ja
Inventor
インダージート マニ
インダージート マニ
エウジェニオ シウラナ
エウジェニオ シウラナ
ニコラス ダロイシオ−モンティラ
ニコラス ダロイシオ−モンティラ
バート ケイ スワンソン
バート ケイ スワンソン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GBGB1117848.0A external-priority patent/GB201117848D0/en
Priority claimed from GBGB1121033.3A external-priority patent/GB201121033D0/en
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Publication of JP2014528620A publication Critical patent/JP2014528620A/ja
Application granted granted Critical
Publication of JP6110389B2 publication Critical patent/JP6110389B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

関連出願の相互参照
本出願は、2011年12月7日に出願された英国特許出願番号1121033.3及び2011年12月8日に出願された米国仮特許出願番号61/568,188の優先権を主張するものであり、それらの両方の全体が、引用により本明細書に組み込まれる。
本発明は、電子文書の内容を自動的に要約するための方法、有形のコンピュータ可読媒体及びシステムに関する。
検索エンジンを用いてワールドワイドウェブ上で実行される一般的な検索は、複数の検索結果(例えば、ニュース記事、ウェブページ、ソーシャルメディアコンテンツ、及び同様のもの)を生成する。しかしながら、検索結果の少なくとも一部分は、多くの場合、検索に関係するものではない。さらに、関係するものであっても、検索結果の内容は文書毎に異なる場合がある。
さらに、ソーシャルメディアは、ユーザが、様々な電子文書を別のユーザに推薦することを可能にする。しかしながら、統一資源位置識別子(URL)又はタイトルを見たときに、リンクされた電子文書が、関心がありそうか否かを見分けるのは困難である場合がある。
Chin−Yew Lin著「ROUGE: A Package for Automatic Evaluation of Summaries(ROUGE:要約の自動評価のためのパッケージ)」、Workshop on text Summarization Branches Out会報(WAS2004) スペイン、バルセロナ、2004年7月25〜26日 Hsu他著「A Practical Guide to Support Vector Classification(実践サポートベクトル分類ガイド)」、Department of Computer Science、National Taiwan University Brin他著「The Anatomy of a Large−Scale Hypertextual Websearch Engine(大規模ハイパーテキストウェブ検索エンジンの精密な解析)」、Computer Networks and ISDN Systems、第30巻、1〜7頁(1998年) Mihalcea著「Graph−Based Ranking Algorithms for Sentence Extraction, Applied to Text Summarization(テキスト要約に適用される、文抽出のためのグラフ利用のランク付けアルゴリズム)」、Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics (ACL 2004) スペイン、バルセロナ
従って、実際に関係する又は関心のある内容を有する文書を発見することは、ユーザが、複数の文書を、その内容の予備知識をほとんど有さずに1つ1つ調べることを必要とする場合もあるので、ある程度の試行錯誤を伴う。この試行錯誤は、特に文書のどれも長い場合(例えば、書籍又はいずれかのニュース記事の場合)には、時間を要する労作業である可能性がある。移動体デバイス(例えば、スマートフォン)上で行われる場合には、様々な文書を1つ1つ校閲することは、これらの文書が、より長い閲覧時間及びデバイス上へのロード時間を必要とする場合があるので、さらに一層時間を要する可能性がある。
電子文書を要約するための方法の一実施形態は、電子文書を、各々が、個別の長さ、個別の情報性スコア、及び個別の一貫性スコアに関係付けられた複数の語句に分割する段階と、サブセットの総計情報性スコアが最大化されるが、複数の語句からなるサブセットの総計長さが長さ上限よりも短い又はそれに等しいように、前記サブセットを自動的に選択する段階と、サブセットを電子文書の要約として配列する段階とを含む。
更なる実施形態では、サブセットは、複数の語句の全てよりも少ない語句を含み、語句のうちの少なくとも1つは文を含み、複数の語句のうちの所与の語句に関する個別の情報性スコアは、言語に依存しないスコア付け手法に従って割り当てられ、スコア付け手法は、手動でコード化されたルールセットに従って所与の語句の複数の特徴に重み値を割り当て、複数の語句のうちの所与の語句に関する個別の情報性スコアは、言語に依存するスコア付け手法に従って割り当てられ、スコア付け手法は、統計分類器を用いる監視あり機械学習手法であり、統計分類器は、サポートベクトルマシンであり、スコア付け手法は、所与の語句を有向グラフ内の重み付きノードとして表す監視なし機械学習手法であり、複数の語句の各々に関する個別の情報性スコアは、少なくとも閾値に等しく、複数の語句の各々の個別の一貫性スコアは、少なくとも閾値に等しく、方法はさらに、分割する段階の後で自動的に選択する段階の前に、複数の語句の各々の枝刈りを行う段階を含み、自動的に選択する段階は、組み合わせ最適化器を用いて実行され、自動的に選択する段階は、複数の語句の各々を個別に評価してサブセット内に包含する段階を含み、評価する段階は、複数の語句のうちで、サブセットの現在の総計長さを超える個別の長さを有する語句をサブセット内への包含から除外する段階を含み、評価する段階は、複数の語句のうちの所与の語句に関して、所与の語句が除外され、総計長さが前記長さ上限よりも短い又はそれに等しい、複数の語句からなる最も情報性の高いサブセット、に関連する個別の情報性スコアの合計値である第1の合計値を算出する段階と、第1の合計値から所与の語句の個別の長さを減算した値に等しい第1の値と、所与の語句の個別の情報性スコアである第2の値との合計値である第2の合計値を算出する段階と、所与の語句を前記サブセット内に含めるか否かを、前記第1の合計値と前記第2の合計値との比較に基づいて決定する段階とを含み、判定する段階は、第2の合計値が第1の合計値よりも大きい場合に、所与の語句をサブセット内に含める段階と、第1の合計値が第2の合計値よりも大きい場合に、所与の語句をサブセットから除外する段階とを含み、複数の語句は、複数の語句の各々が電子文書内で出現する順序により整列し、方法はさらに、分割する段階、自動的に選択する段階、及び配列する段階の前に、電子文書が要約可能であることを判定する段階を含み、判定する段階は、電子文書に関して、電子文書の複数の特徴を含む特徴ベクトルを生成する段階と、複数の特徴の各々に重み値を割り当てる段階と、電子文書が要約可能であるか否かを示すスコアを、複数の特徴の各々に割り当てられた重み値に従って電子文書に割り当てる段階とを含み、重み値は自動的に学習され、重み値を割り当てる段階は、複数の特徴のうちの所与の特徴に関して、所与の特徴が、要約可能な文書を含む学習例のセットにおいて少なくとも所定の頻度で出現する場合に、重み値を増加させる段階と、所与の特徴が、要約可能な文書を含む学習例のセットにおいて少なくとも所定の頻度で出現する場合に、重み値を増加させる段階とを含み、重み値を割り当てる段階及びスコアを割り当てる段階は、電子文書が記述された言語に特有の方法で実行される。
電子文書を要約するための実行可能プログラムを含む有形のコンピュータ可読媒体の一実施形態は、電子文書を、各々が、個別の長さ、個別の情報性スコア、及び個別の一貫性スコアに関係付けられた複数の語句に分割する段階と、サブセットの総計情報性スコアが最大化されるが、複数の語句からなるサブセットの総計長さが長さ上限よりも短い又はそれに等しいように、前記サブセットを自動的に選択する段階と、サブセットを電子文書の要約として配列する段階とを含む動作を実行するプログラムを含む。
電子文書を要約するためのシステムの一実施形態は、プロセッサと、電子文書を、各々が、個別の長さ、個別の情報性スコア、及び個別の一貫性スコアに関係付けられた複数の語句に分割する段階と、サブセットの総計情報性スコアが最大化されるが、複数の語句からなるサブセットの総計長さが長さ上限よりも短い又はそれに等しいように、前記サブセットを自動的に選択する段階と、サブセットを電子文書の要約として配列する段階とを含む動作をプロセッサに実行させる実行可能プログラムを含むコンピュータ可読媒体とを含む。
本発明の教示は、以下の詳細な説明を、添付図面と併せて考慮することによって容易に理解することができる。
本発明の実施形態を展開することができる通信ネットワークの一実施例を示すブロック図である。 図1に示すアプリケーションサーバのより詳細な実施形態を示すブロック図である。 本発明による、電子文書から内容を抽出するための方法の一実施形態を示すフロー図である。 本発明による、電子文書を要約することができるか否かを判定するための方法の一実施形態を示すフロー図である。 本発明による、電子文書を要約するための方法の一実施形態を示すフロー図である。 本発明による、文セットを選択して文書要約を形成するための方法の一実施形態を示すフロー図である。 汎用コンピューティングデバイスを用いて実装された本発明の高水準ブロック図である。
一実施形態では、本発明は、電子文書の内容を自動的に要約するための方法及び装置である。本発明の実施形態は、電子文書をデバイス上にロードすることを必要とせずに電子文書の内容を要約することによって、簡潔で効率的なコンテンツ消費を容易にする。一実施形態では、本発明は、スマートフォン又はタブレットコンピュータ等の、ネットワークを介して遠隔地サーバと相互作用する移動体デバイス用のアプリケーションとして実装される。
図1は、本発明の実施形態を内部に展開することができる通信ネットワーク100の一実施例を示すブロック図である。通信ネットワーク100は、本開示に関連する、例えば、従来の回路交換ネットワーク(例えば、公衆交換電話網(PSTN)又はインターネットプロトコル(IP)ネットワーク(例えば、IPマルチメディアサブシステム(IMS)ネットワーク、非同期転送モード(ATM)ネットワーク、無線ネットワーク、セルラーネットワーク(例えば、2G、3G、及び同様のもの)、ロング・ターム・エボリューション(LTE)ネットワーク、及び同様のもの)等のいずれかの種類の通信ネットワークとすることができる。IPネットワークは、データパケットを交換する上でインターネットプロトコルを用いるネットワークとして広義に定義されることに留意されたい。別の例示的なIPネットワークは、ボイスオーバーIP(VoIP)ネットワーク、サービスオーバーIP(SoIP)ネットワーク、及び同様のものを含む。
一実施形態では、ネットワーク100は、コアネットワーク102を備えることができる。コアネットワーク102は、1つ又はそれ以上のアクセスネットワーク120及び122と通信することができる。アクセスネットワーク120及び122は、無線アクセスネットワーク(例えばWiFiネットワーク及び同様のもの)、セルラーアクセスネットワーク、PSTNアクセスネットワーク、ケーブルアクセスネットワーク、有線アクセスネットワーク、及び同様のものを含むことができる。一実施形態では、アクセスネットワーク120及び122は、全て異なる種類のアクセスネットワークとすること、全て同じ種類のアクセスネットワークとすること、又は幾つかのアクセスネットワークを同じ種類のアクセスネットワークとし、その他のアクセスネットワークを、別の種類のアクセスネットワークとすることができる。コアネットワーク102とアクセスネットワーク120及び122は、異なるサービスプロバイダ、同じサービスプロバイダ、又はそれらの組み合わせによって運用することができる。
一実施形態では、コアネットワーク102は、アプリケーションサーバ(AS)104とデータベース(DB)106とを含むことができる。単一のAS104及び単一のDB106のみを示しているが、任意の数のアプリケーションサーバ104又はデータベース106を展開できることに留意されたい。例えば、コアネットワーク102は、サービス及びアプリケーションを高度な負荷分散方式に対応するクラウド環境の一部分を備えることができる。
一実施形態では、AS104は、図7に示し、以下に説明するように、汎用コンピュータを含むことができる。一実施形態では、AS104は、電子文書の内容を要約することに関して以下に説明する方法及びアルゴリズムを実行することができる。
一実施形態では、DB106は、AS104によって収集され要約された電子文書の要約を格納する。別の実施形態では、DB106は、ネットワーク100のユーザに関するプロファイルを選択的に格納することができる。例えば、DB106は、各ユーザに関する携帯電話番号、電子メールアドレス、ソーシャルメディアプロファイル、及び同様のものを格納することができる。この個人情報は、ユーザのプライバシーを保護するように、暗号化形態で格納することができる。さらに、ユーザ認可を必要として、DB106が任意の個人情報を格納することができる。追加的に、DB106は、関心のある内容(例えば、芸能、スポーツ、科学等に関連するニュース記事)の種類に関するユーザの選好性を格納することができる。
一実施形態では、アクセスネットワーク120は、1つ又はそれ以上のユーザ端末デバイス(「端末デバイス」又は「UE」とも呼称)108及び110と通信することができる。一実施形態では、アクセスネットワーク122は、1つ又はそれ以上のユーザ端末デバイス112及び114と通信することができる。
一実施形態では、ユーザ端末デバイス108、110、112、及び114は、任意の種類の端末デバイスとすることができ、例えば、デスクトップコンピュータ、又はセルラー電話、スマートフォン、タブレットコンピュータ、ラップトップコンピュータ、ネットブック、ウルトラブック、携帯メディアデバイス(例えばMP3プレーヤ)、ゲーム機、携帯ゲームデバイス、及び同様のもの等の移動体端末デバイスとすることができる。図1には4つのユーザ端末デバイスのみを示してが、任意の個数のユーザ端末デバイスを展開できることに留意されたい。一実施形態では、任意のユーザ端末デバイスは、内部に組み込まれた1つ又はそれ以上のセンサを有することができる。これらのセンサは、例えば、位置センサ、環境センサ、音響センサ、ポジションセンサ、光センサ、圧力センサ、近接センサ、及び同様のものを含むことができる。AS104は、以下により詳細に解説するように、これらのセンサの出力を定期受信することができる。
ネットワーク100は、単純化したものであることに留意されたい。例えば、ネットワーク100は、ネットワーク境界要素、ルータ、スイッチ、ポリシーサーバ、セキュリティデバイス、コンテンツ分散ネットワーク(CDN)、及び同様のもの等の他のネットワーク要素を含むことができる。
図2は、図1に示すアプリケーションサーバ104のより詳細な実施形態を示すブロック図である。図示のように、AS104は、全体が、自然言語処理(NLP)システム200とバス204とを備える。
バス204は、複数の情報源2061〜206n(以下では集合的に「供給源206」と呼称)から電子文書を収集する。一実施形態では、バス204は、これらの文書を情報源206から取り出す。従って文書は、例えば、ウェブフィード(例えば、リッチサイトサマリー(RSS)フィード、アトムフィード等)及びウェブページ(例えば、ニュースサイト、ソーシャルメディアサイト等)を含むことができる。バス204は、収集した文書を、以下により詳細に説明する更なる処理及び要約に向けてNLPシステム200に転送する。一実施形態では、バス206は、ミュールエンタープライズサービスバス(ESB)である。
NLPシステム200は、一般的に抽出器208と、分類器210と、要約器212とを備える。抽出器208は、バス204から収集済み文書を受け取って、これらの文書から内容を抽出する第1のフィルタを備える。一実施形態では、抽出対象のコンテンツは、テキスト、画像、又はビデオのうちの1つ又はそれ以上を含む。抽出対象のコンテンツは、任意の言語におけるものとすることができる。一実施形態では、抽出器208は、コンテンツを抽出する上で発見的手法を用いる。
分類器210は、抽出器208から抽出済みコンテンツのうちの少なくとも幾つかを受け取り、これらの抽出済みコンテンツに基づいて、元の文書を要約することができるか否かを判定する。一実施形態では、分類器210は、学習された(例えば、監視あり)言語モデルを用いる統計分類器である。例えば、特定の一実施形態において、分類器210は線形回帰分類器である。
要約器212は、分類器によって要約可能であると判定された元の文書を受け取って文書を要約する。一実施形態では、要約器212は、様々な長さを有する少なくとも2つの要約情報を生成する。例えば、要約器212は、「短い」要約情報と「長い」要約情報とを生成することができ、長い要約情報は、短い要約情報よりも約33パーセントから50パーセント長い(例えば、短い要約情報は、約390文字に制限することができ、長い要約情報は、約590文字に制限される)。要約器212は、要約情報を格納用のデータベース106に出力する。次に、データベース106は、以下により詳細に説明するように、要約情報を1つ又はそれ以上のユーザ端末デバイス108、110、112、及び114に転送することができる。
図3は、本発明による、電子文書から内容を抽出するための方法300の一実施形態を示すフロー図である。方法300は、例えば、図1及び図2に示すアプリケーションサーバ104で実装することができる。従って、方法300の説明において、図2に示す様々な要素に言及する。しかしながら、方法300は、図2に示すサーバ構成を用いた実施例に限定されず、かかる言及は、ほとんどが説明を容易にするために行うものであることが理解されよう。
方法300は、段階302で開始する。段階304では、バス204が、URL及びタイトルを有する電子文書を取得する。上記に説明したように、バス204は、文書をネットワーク100から取り出すことができる。一実施形態では、文書は、ウェブフィード又はウェブページである。
段階306では、抽出器208が、URLが妥当であるか否か(すなわち、要約に適する内容を含む)を判定する。例えば、手紙、議論、広告、連絡アドレス、又は同様のもの等の特定の文書は、要約には適さない可能性がある。一実施形態では、この判定は、1つ又はそれ以上の事前に指定されたパターンに従って行われる。例えば、ストーリー|エントリ|ページ|コンテンツ|テキスト|本文、又は同様のもの等のパターンは、要約に適する内容を示すものとすることができ、一方、Vカード|宣伝|バナー広告|マストヘッド、又は同様のもの等のパターンは、要約には適さない内容を示すものとすることができる。抽出器208は、段階306においてURLが妥当ではないと結論付けた場合には、段階308において文書を破棄し、その後、方法300は段階320において終了する。
或いは、抽出器208が段階306においてURLが妥当であると結論付けた場合には、方法300は段階310に進む。段階310において、抽出器208は、文書のソースコード(例えばハイパーテキストマークアップ(HTTP)コード)を構文解析する。一実施形態では、ソースコードを構文解析する段階は、パラグラフタグ(すなわち<p>)又はヘッダータグ(例えば<h1>)でマーキングされた任意の要素を含む全てのパラグラフリストを文書オブジェクトモデル(DOM)ツリー内で収集する段階を含む。かかる各パラグラフには、初期(デフォルト)スコアが割り当てられ、最も近い関係の構造タグには、このタグに関係付けられたパラグラフのスコアの合計値であるスコアが割り当てられる。一実施形態では、構造タグは、パラグラフがテキスト内容を有することを示すクラス属性又はID属性を有する<div>タグである場合に、関連性のあるとみなされる。
段階312において、抽出器208は、最高スコアを有するソースコード内のタグを識別し、このスコアは、上記に説明した加重方式に基づく。このタグは、最も関連性のある内容を含むDOMノードを表す。
段階314において、抽出器208は、識別されたタグのソースコードからテキストを抽出する。一実施形態では、抽出器208は、無関係な素材(例えば、画像キャプション、ナビゲーションリンク、署名、及びソーシャルメディアサイトへのリンク)を含む可能性が高いノードの下にあるテキストを削除する抽出手法を用いる。
段階316において、抽出器208は、文書内で参照されている全ての画像のセットをスコア付けする。スコア付けは、関連性のある可能性が最も高い(すなわち、要約されるコンテンツに直接関連する)画像を識別する。関連性のある画像は、例えば、主な文書内容に一致するもの等の特徴を有する画像、所定の最小サイズよりも大きい画像(例えば、大きい画像は、文書と関連性のある可能性が非常に高い)、共同写真専門家グループ(JPEG)フォーマット画像(例えば、アイコン及びロゴ等の無関係な画像は、ポータブルネットワークグラフィックス(PNG)フォーマット及びグラフィックス交換フォーマット(GIF)フォーマット等の別のフォーマットで到来する傾向を有する)、及び文書と同じ情報源を起点として送られる画像(例えば、広告画像は、多くの場合、外部情報源からインポートされたものである)を含むことができる。無関係な画像は、例えば、アイコン、ロゴ、ナビゲーション要素、広告、又は同様のものを含むことができる。
一実施形態では、スコア付け手法は、画像の様々な特徴に基づく重み付け手法である。これらの特徴は、画像並びに画像コンテンツ(例えば、画像処理手法を用いて得られる)に関するメタデータを含むことができる。例えば、この特徴は、所与の画像が適切なサイズのものであるか否か、又は画像がどの種類のファイル形式で格納されているかを含むことができる。この場合、重み値の線形組み合わせの合計値が計算されスケール調整される(例えば、ゼロから1までのスケールに)。例えば、画像をスコア付けするための1つの重み付けアルゴリズムは、次式として規定することができる。
Figure 0006110389
数式1の場合には、画像の特徴を、j(j={1,…,n})と表し、画像のスコアは、一定の重み付け係数β0を、各特徴の重み付け係数βjと値(Value(Featj))との積の合計値に加算したものに等しい。一般的に、抽出器208は、各特徴を、存在するか(この場合、値は1である)又は存在しないか(この場合、値はゼロである)のいずれかとみなす。しかしながら、一実施形態では、数式1が要約の状況で用いられる場合に、特徴の値は、この特徴が文書内で何回出現するかを反映する数である。
段階318において、抽出器208は、抽出済みテキストとx個の最高スコア画像(一実施形態ではx=3)とを出力する(例えば分類器210に)。一実施形態では、x個の最高スコア画像は、抽出器208によって出力されるように、所定の閾値θ(一実施形態ではθ=0.67)を上回るスコアを有する必要がある。さらに、一実施形態では、x個の最高スコア画像に関するスコアが抽出器208によって出力される。
その後、方法300は、段階320で終了する。
図4は、本発明による、電子文書を要約することができるか否かを判定するための方法400の一実施形態を示すフロー図である。方法400は、例えば、図1及び図2に示すアプリケーションサーバ104で実装することができる。従って、方法400の説明において、図2に示す様々な要素に言及する。しかしながら、方法400は、図2に示すサーバ構成を用いた実施例に限定されず、かかる言及は、ほとんどが説明を容易にするために行うものであることが理解されよう。
方法400は、段階402で開始する。段階404では、分類器210が、電子文書を取得する(例えばバス204から)。段階406において、分類器210は、文書の言語を識別する。一実施形態では、言語は、文書に関係付けられた言語コード又は識別子を調査することによって識別される。しかしながら、別の実施形態では、分類器1は、文書内容を解析することによって言語を識別する言語識別構成要素を含む。一実施形態では、本発明は言語に依存しない、すなわち、本明細書に開示するシステム及び方法(方法400の残りの段階等)は、元の文書が記述された言語に関わらず適用可能である。
段階408において、分類器210は、文書に関する特徴ベクトルを生成する。一実施形態では、特徴ベクトルは、言語、ジャンル、文書の長さ、及び同様のものの変化量に対して頑強性があるように設計され、特徴カウント(例えば、文字数、数字数、上付き文字数及び下付き文字数、空白及び句読点数、単語数、上位m番目までの単語数、上位y番目までの文字数、特有の単語数等)を含む。
段階410において、分類器210は、文書の特徴ベクトルを、(蓄積された)「モデル」ファイル内に格納された、識別済み言語に関して要約スコアを返す関数に渡す。一実施形態では、この格納された関数は、数式1の形式をとり、この場合yは、文書の要約スコアを表し、例示的な特徴は、段階408に関連して上記に説明した特徴である。重み付け係数βは、システム展開の前の分類器の学習過程の間に自動的に学習される。例えば、マシン学習プログラムでは、肯定的な学習例(例えば、要約可能な文書のフォルダ内の)は、肯定的な例において比較的高頻度な(例えば、少なくとも所定の頻度で出現する)特徴に関して大きい重み値をもたらし、一方、否定的な学習例(例えば、要約不能な文書のフォルダ内の)は、否定的な例において比較的高頻度な(例えば、少なくとも所定の頻度で出現する)特徴に関して小さい重み値をもたらす。一実施形態では、分類器は、アプリケーションサーバ104が処理することができる各言語に関して複数のフォルダを管理する。第1のフォルダは、要約することができる複数の例示的な文書(すなわち、上記に説明した肯定的な学習例)を備え、一方、第2のフォルダは、要約することができない複数の例示的な文書(すなわち、上記に説明した否定的な学習例)を備える。一実施形態では、要約することができない種類の文書は、編集者への投書、編集者の意見記事、及び小説類を含み、その他の種類の文書は潜在的に要約可能である。
段階412において、分類器210は、段階410で実行された計算に従って文書をスコア付けする。一実施形態では、入力文書から構築された特徴ベクトルは、上記に説明したように展開前の学習過程の間に自動的に学習された係数を有する数式1に基づく関数に渡される。
段階414において、分類器210は、文書のスコア(段階412で生成された)が、所定の閾値よりも大きい又はそれに等しいか、或いはそれ以外かを判定する。分類器210が、段階414において文書のスコアが閾値よりも大きい又はそれに等しいと結論付けた場合には、分類器210は、文書を要約できることを示す。従って、方法400は段階416に進み、分類器210は、要約するよう文書を要約器212に渡す。
或いは、分類器210が段階414において文書のスコアが閾値よりも小さいと結論付けた場合には、分類器210は、文書を要約できないことを示す。従って、方法400は段階418に進み、文書は破棄される。
文書が要約器に渡される(段階416に従って)こと又は破棄される(段階418に従って)ことのいずれかが行われると、方法400は段階420において終了する。
上記に説明したように、分類器210は、文書の特徴ベクトルの特徴量を重み付けするよう、例示的な文書を基にして学習されたモデルを用いる。一実施形態では、例示的な文書は、人間の操作者が、要約可能又は要約不能とラベル付けすることができる。別の実施形態では、ラベル付けは、いずれかの他のタスクにおいてラベル付け済みである既存のコーパスを用いること、又はラベルが付いていない文書集合内の所与の文書が要約可能であるか否かを判定するためにこの集合からの統計量を用いることのいずれかによってブートストラップ推定される。後者の場合には、関係する統計量は、例えば文書の長さとすることができる(例えば、長さ分布と比較して過度に短い又は過度に長い文書を要約不能とラベル付けすることができる)。同じく上記に説明したように、分類器210は、異なる言語に関して複数のモデルを用いることができる。
図5は、本発明による、電子文書を要約するための方法500の一実施形態を示すフロー図である。方法500は、例えば、図1及び図2に示すアプリケーションサーバ104で実装することができる。従って、方法500の説明において、図2に示す様々な要素に言及する。しかしながら、方法500は、図2に示すサーバ構成を用いた実装に限定されず、かかる言及は、ほとんどが説明を容易にするために行うものであることが理解されよう。
方法500は、段階502で開始する。段階504では、要約器212が、電子文書を取得する(例えばバス204から)。
段階506において、要約器212は、文書を複数の文に分割する。説明を容易にするために文を用いるが、文書はさらに、句、節、段落、又はブロック、或いは様々な種類のテキスト単位の組み合わせ等のその他のテキスト単位に分割することができることが理解されよう。一実施形態では、分割する段階は、学習された言語モデルに基づいてテキストを複数の文(又はその他のテキスト単位)に分解する文分割器を用いて実現される。別の実施形態では、分割器は、文書が記述された言語用に構成される。
段階508では、要約器212は、評価するよう文のうちの1つを選択する。一実施形態では、文は、文書内に出現する順序で評価される。
段階510において、要約器212は、文の情報性を評価する。一実施形態では、情報性は、複数の利用可能なアルゴリズムのうちの1つに従って評価される。例えば一実施形態では、3つのアルゴリズム、すなわち(1)短い要約情報(例えば、約390文字よりも短い)に関して常に用いられる第1のアルゴリズム、(2)長い要約情報(例えば、短い要約情報よりも33パーセントから50パーセント長い)に関して常に用いられ、参照要約情報に基づいて英語で言語学習されたモデルが望ましい場合に用いられる第2のアルゴリズム、及び(3)全てのその他の事例において用いられる第3の監視なしアルゴリズムが用いられる。
一実施形態では、第1のアルゴリズムは、言語に依存しない複数の特徴に基づき手動でコード化されたルールセットを用いる。これらの特徴は、例えば、文書内での文の位置、又は文の長さを含むことができる。一実施形態では、これらの特徴は、ブール特徴(例えば、「この文は文書の最初のx個の文の中に出現するか?」又は「文の長さはy個の文字よりも短い/長いか?」)に変換され、次に、数式1を参照して上記に説明した重み付けと同様の方式で重み付けされる。第1のアルゴリズムの出力は、各文に関する情報性スコア配列である。
一実施形態では、第2のアルゴリズムは、人間が作成した参照要約情報を基にして学習された、監視あり機械学習手法である。第2のアルゴリズムは、Chin−Yew Linによって「ROUGE: A Package for Automatic Evaluation of Summaries(ROUGE:要約情報の自動評価のためのパッケージ)」Workshop on text Summarization Branches Out会報(WAS2004)スペイン、バルセロナ、2004年7月25〜26日に開示された、公知のRecall−Oriented Understudy for Gisting Evaluation(要旨評価のための再現率指向の代替法)(ROUGE)指標に基づいて関数を最大化することを試みる。ROUGEは、システムが生成した要約情報内に存在する参照要約情報内の単語の比率の関数としてシステムの精度を評価し、次式のように定義することができる。
Figure 0006110389
ここでcountmatch(N−gram)は、参照要約情報とシステムが生成した要約情報との両方において共通して生じるN−gramの最大数であり、count(N−gram)は、参照要約情報で生じるN−gramの総数である。
第2のアルゴリズムは、各文を分類インスタンスとして取り扱い、次に、要約情報において共通して用いられる標準的な特徴セットを用いて各インスタンスを特徴付ける。一実施形態では、これらの特徴は、文書内での文の位置(例えば、文番号による、及び一般的な位置による)、文内での数字の存在、文内での代名詞の存在、文内での大文字単語の存在、及び文のサイズのうちの1つ又はそれ以上を含む。一実施形態では、分類器は、最も高いROUGE1スコアを有する文が肯定的(すなわち要約を含む)とラベル付けされ、残りの文が否定的(すなわち要約を含まない)とラベル付けされる学習セットを用いる。
一実施形態では、第2のアルゴリズムは、統計分類器としてサポートベクトルマシン(SVM)を用いる。一実施形態では、SVMは、Hsu他著「A Practical Guide to Support Vector Classification(サポートベクトル分類実践ガイド)」、Department of Computer Science、National Taiwan Universityにより、次式のように規定することができ、
Figure 0006110389
ここで、各文iは、ラベルy∈{−1,+1}nを有する特徴ベクトル
Figure 0006110389
として表される。関数Φは、学習ベクトルを高次元特徴空間に写像する。この場合、wは、超平面の法線ベクトルであり、bは、マージンサイズ(すなわち、肯定的なクラスと否定的なクラスとを分離する最適な超平面から最も近い学習例又はサポートベクトルまでの距離)であり、C>0は、エラー項のペナルティーを表す正則化パラメータであり、ξi≧0は、xの誤分類の程度の評価するスラック変数である。SVMは、この超空間内で最大マージンを有する最適な超平面を求める。SVMの出力は、各文に関するスコアの配列である。一実施形態では、Document Understanding Conferences(DUC)によるデータに基づいて英語文書に関して学習されたモデルが提供される。
一実施形態では、第3のアルゴリズムは、グラフのランダムウォークによって有向グラフ内の際立ったノードを識別する、監視なしマシン学習手法(例えばページランク手法)である。特定の実施形態では、第3のアルゴリズムは、文を選択するタスクをグラフベースの最適化問題として取り扱う。具体的に、第3のアルゴリズムは、文を有向グラフ内のノードとして表し、ノード間のエッジは、文書内で後に出現する文を文書内で先行して出現する文にリンク付けする。ノードは重み付けされ、最初に、文書内で対応する文の位置により重み付けされる(例えば、文書内で先行して出現する文は、より大きく重み付けされ、文書内で後に出現する文に遭遇するにつれて重み値は指数関数的に小さくなる)。初期重み値は、対応するノード間のリンクに基づいて調整され、ノードxとノードyとを接続するリンクの重み値wxyは、次式により修正されたコサイン類似度として算出され、
Figure 0006110389
ここで文内の語句(例えば単語)は、1からnまでに番号付けされ、文x内の語句iの重み値はxiと表される。一実施形態では、語句の重み値は、対応する文内での語句の頻度を、文書内でこの語句を含む文の数によって除算した値である。
上記に説明したように、一実施形態では、第3のアルゴリズムは、有向グラフ内で際立ったノードを識別するページランク手法を用いる。第3のアルゴリズムとして実装することができる1つの特定のページランク手法は、Brin他による「The Anatomy of a Large−Scale Hypertextual Websearch Engine(大規模ハイパーテキストウェブ検索エンジンの分析)」、Computer Networks and ISDN Systems、第30巻、1〜7頁(1998年)、及びMihalceaによる「Graph−Based Ranking Algorithms for Sentence Extraction, Applied to Text Summarization(テキスト要約に適用される、文抽出のためのグラフベースランク付けアルゴリズム)」スペイン、バルセロナのProceedings of the 42nd Annual Meeting of the Association for Computational Linguistics (ACL 2004)において詳細に開示されている。特定の一実施形態では、グラフの各ノードは、当該ノードを指し示す後のノードからの到来リンクの重み値に基づいて重み付けられ、当該ノードが指し示す外向きリンクの重み値によって正規化される。本質的にページランク手法は、ランダムウォークから生じる主要ノードを識別するように用いられる。従って、ノードの重み値(又はスコア)は、次式として算出することができ、
Figure 0006110389
ノードからのエッジの重み値は、遷移確率を表すように再正規化される。出力は、各文に関して1つのスコアの配列である。この手法は、最初の言及を大きく重み付けする傾向があり、トピック全体にわたって重み値が散在し、トピックの最初の言及を含む文は、トピックを表すとみなされる。
文を、適切なアルゴリズムに従って情報性に関してスコア付けすると、方法は段階512に進む。段階512において、要約器212は、文の情報性が第1の所定の閾値よりも大きい又はそれに等しいか、或いはそれ以外かを判定する。要約器212は、段階512において文の情報性が第1の所定の閾値よりも低いと結論付けた場合には、段階516においてこの文を破棄する。次に、方法500は段階520に進み、要約器212は、評価するいずれかの文が残っているか否かを判定する。
或いは、要約器212が段階512において文の情報性が第1の所定の閾値よりも大きい又は等しいと結論付けた場合には、方法500は段階514に進む。段階514において、要約器212は、文の一貫性を評価し、それによって、最終的に生成される要約の各文の可読性を維持することを目指す。一実施形態では、文の一貫性は、その存在が、程度の差はあるが文を判読可能にする様々なブール特徴(特徴の中でもとりわけ、例えば、文が引用符に囲まれているか否か、文が質問を含むか否か、文が代名詞を含むか否か、文が引用符を欠いて出現するか否か、文の長さ)に基づいて文に重み値を割り当てることによってスコア付けされる。
段階518において、要約器212は、文の一貫性が第2の所定の閾値よりも大きい又はそれに等しいか、或いはそれ以外かを判定する。要約器212が段階518において文の一貫性が第2の所定の閾値を下回ると結論付けた場合には、方法500は段階516に進み、要約器212は、上記に説明したようにこの文を破棄する。
或いは、要約器212が、段階518において文の一貫性が第2の所定の閾値よりも大きい又はそれに等しいと結論付けた場合には、方法500は段階520に進む。
段階520において、要約器212は、評価するいずれかの文が残っているか否かを判定する。要約器212が、段階520において評価する文が残っていると結論付けた場合には、方法500は段階508に戻り、要約器212は、次に進み、上記に説明したように、文書から次の文を選択して評価する。
或いは、要約器212が段階520において評価する文が残っていないと結論付けた場合には、方法500は段階522に進む。別の実施形態では、評価されていない文が存在する可能性があるが、要約器212は、いずれにしても文書をそれ以上評価しないことを決定し(例えば、要約器は、既に、十分な数の文を取得している可能性がある)、単純に続行することができる。段階522において、要約器212は、枝刈りされた文の部分列を生成する。一実施形態では、部分列は、組み合わせ最適化器を用いて生成される。
一実施形態では、組み合わせ最適化器は、Goddardによる「Dynamic Programming:0−1 Knapsack Problem(動的プログラミング:0−1ナップザック問題)」(2012年、www.cse.unl.edu/〜goddard/Courses/CSCE310J)において仮定された古典的な0/1ナップザック問題を解く動的プログラミング手法を用い、この問題は、各々が重量と価値とを有するi個の品物が与えられた場合に、合計重量が限界値よりも小さい又はそれに等しく、合計の価値が最大化されるように、どの品物をナップザックの中に収めるかを決定することとして定義される。要約の観点で表現すると、この問題は、次式として記述することができる。
Figure 0006110389
0/1ナップザック問題に関する標準的な動的プログラミング解決手段を用いると、合計長さpを有する、文1からiからなる最も情報性の高い部分列は、文iを含むか、又は文iを含まないかのいずれかである。文iの長さがpよりも大きい場合には、文iは除外され、要約器212は、文1からi−1からなる最も情報性が高い部分列を選択する。文iの長さがpよりも大きくない場合には、文1からiの最も情報性が高い部分列の値は、2つの数値、すなわち、(1)合計長さpを有する、1からi−1の文からなる最も情報性の高い部分列の値と、(2)aが、合計長さ(p−長さ(文i))を有する、1からi−1の文からなる最も情報性の高い部分列の値であり、bが文iの情報性である場合の、合計値(a)+(b)と、うちの最大値である。(2)がより大きい場合には、要約内に包含するよう文iが選択され、それ以外の場合には、文iは選択されない。
従って、要約すると、段階522において、最適化器には、枝刈りされた文の全て及びその情報性スコアと共に、部分列に関する目標長さが提供される。次に、最適化器は、目標長さと文の情報性とに基づいて文からなる最良の部分列を返す。一実施形態では、文は、文書内で出現する順序により部分列内で順序付けされる。
段階524において、要約器212は、部分列を文書要約として出力する(例えば、ユーザ端末デバイス108、110、112、又は114、或いはデータベース106に)。その後、方法500は段階526で終了する。
図6は、本発明による、一組の文を選択して文書要約を形成するための方法600の一実施形態を示すフロー図である。方法600は、例えば、方法500の段階522に従って、図1及び図2に示すアプリケーションサーバ104で実装することができる。従って、方法600の説明において、図2に示す様々な要素に言及する。しかしながら、方法600は、図2に示すサーバ構成を用いた実装に限定されず、かかる言及は、ほとんどが説明を容易にするために行うものであることが理解されよう。
方法600は、一組の文を文毎の基準で評価するにように要約情報を構築する。従って、要約情報は、方法600が一組の文を通して作用するにつれて進化し、変化することができる。
方法600は段階602で開始する。段階604において、要約器212は、各々が上記に説明した方法500に従って処理されたN個の文からなるセットを取得する。それに加えて、各文は、上記に説明した情報性スコア及び文の長さに関連する。
段階606において、要約器212は、目標要約長さを取得する。この目標長さはデフォルトの長さとすること、又はユーザが定義する長さとすることができる。
段階608において、要約器212は、N個の文からなるセットからの文iを考慮する。一実施形態では、文は、元の文書内で出現する順序でこのセットから選択される。
段階610において、要約器212は文の枝刈りをする。一実施形態では、文の枝刈りをする段階は、文から素材を削除する1つ又はそれ以上の削減を含む。一実施形態では、文が記述された言語に関わらず、特定の種類の素材(例えば、日付行、ボールドプレフィクス、挿入句)を削除又は削減することができる。枝刈りは、文の情報性に影響を与える可能性があるが、文は、文の一貫性に影響を与えないように枝刈りされる。
別の実施形態では、削除又は削減することができる特定の種類の素材は、特定の言語に特定のものである。例えば、1つの英語に特定の実施形態では、段階610は、英語の「which is」という語句を削除する段階を含むことができる。代替的に、段階610は、英語の「which have」という語句を、英語の「with」という語句で置き換える段階、又は「which [verb]」という語句を、「[verb]ing」で置き換える(例えば「which go」が「going」になる)段階を含むことができる。別の実施形態では、段階610は、動詞の対に共通の参照主語を有する一対の英語の節から、同等のものを減じる段階を含むことができる(例えば、「The rogue computer program destroyed data over a five month period, and the program infected close to one hundred computers」は、「The rogue computer program destroyed data over a five month period and infected close to one hundred computers」になる)。さらに別の実施形態において、段階610は、名詞句、代名詞、及び/又は固有名称の参照を解決する共通の参照構成要素を仮定する段階を含むことができる。
段階612において、要約器212は、現在の要約長さが目標長さを上回る否かを判定する。要約器212は、段階612において現在の要約長さが目標長さを上回ると結論付けた場合には、段階622において、既存のスコアを要約スコアとして設定し、文iは要約内に含まれない。一実施形態では、スコアは、方法600の開始時にゼロに初期化され、要約内に包含されるように選択される文のスコアにより増加する。
或いは、要約器212が、段階612において現在の要約情報の長さが目標の長さを上回らないと結論付けた場合には、方法600は段階614に進む。段階614において、要約器212は、選択された文iの長さが現在の要約情報の長さよりも短い又はそれに等しいか、或いはそれ以外かを判定する。一実施形態では、要約情報は、要約情報内に包含されるように文が選択されるにつれて増加する構成要素数を有する空白セットとして初期化される。
要約器212は、段階614において、選択された文iの長さが現在の要約の長さよりも長いと結論付けた場合には、段階622において既存のスコアを要約スコアとして設定し、上記に説明したように文iは要約情報内に含まれない。
或いは、要約器212が、段階614において、選択された文iの長さが現在の要約情報の長さよりも短い又はそれに等しいと結論付けた場合には、方法600は段階616に進む。段階616において、要約器212は、文iの包含を考慮した、要約情報に関する新しいスコアを計算する。上記に説明したように、新しいスコアは、2つの数値、すなわち、(1)合計長さpを有する、1からi−1の文からなる最も情報性の高い部分列の値と、(2)aが、合計長さ(p−長さ(文i))を有する、1からi−1の文からなる最も情報性の高い部分列の値であり、bが文iの情報性である場合の、合計値(a)+(b)と、のうちの最大値である。一実施形態では、文の枝刈りが行われなかった場合には、文の情報性スコア(b)は、要約器212によって既に計算されている(例えば方法500に従って)。
段階618において要約器212は、新しいスコアが既存のスコアを上回るか否かを判定する。要約器212は、段階618において新しいスコアが既存のスコアを上回らないと結論付けた場合には、段階622において既存のスコアを要約スコアとして設定し、上記に説明したように文iは要約情報内に含まれない。
或いは、要約器212が段階618において新しいスコアが既存のスコアを上回ると結論付けた場合には、要約器212は、段階620において新しいスコアを要約スコアとして設定する。この場合、文iを要約情報内に含めることができる。文iが要約情報に追加される最初の文である場合には、文iは、無条件に含められる。一実施形態では、文iは、要約情報に追加される最初の文ではない場合に無条件に含められる。しかしながら、別の実施形態では、文iは、それまでに蓄積された要約情報に関連する場合には含められる。文iが要約情報に関連するか否かは、文i内に含まれる単語と、それまでの要約情報内に含まれる単語との重複を計算し、この重複が閾値を満たすか否かを判定することによって判定することができる。
要約スコアが、段階620又は段階622のいずれかに従って設定されと、方法600は段階624に進み、要約器は、N個の文のセット内に評価されるいずれかの文が残っているか否かを判定する。要約器212が、段階624において評価される文が残っていると結論付けた場合には、方法600は段階608に戻り、要約器212は、上記に説明した評価を行うように新しい文に考慮する。
或いは、要約器212が、段階624において評価される文が残っていないと結論付けた場合には、方法600は段階626で終了する。
図7は、汎用コンピューティングデバイス700を用いて実装された本発明の高水準ブロック図である。一実施形態では、汎用コンピューティングデバイス700は、図1に示すAS104等のアプリケーションサーバとして展開される。本発明の実施形態は、通信チャネルを通じてプロセッサに結合された物理デバイス又はサブシステムとして実装できることを理解されたい。従って、一実施形態では、汎用コンピューティングデバイス700は、プロセッサ702と、メモリ704と、要約モジュール705と、ディスプレイ、キーボード、マウス、モデム、マイクロフォン、スピーカ、タッチスクリーン、適応I/Oデバイス、及び同様のもの等の様々な入力/出力(I/O)デバイス706を備える。一実施形態では、少なくとも1つのI/Oデバイスは、記憶デバイス(例えば、ディスクドライブ、光ディスクドライブ、フロッピー(登録商標)ディスクドライブ)である。
代替的に、本発明の実施形態(例えば、要約モジュール705)は、1つ又はそれ以上のソフトウェアアプリケーション(又はさらに、例えば特定用途向け集積回路(ASIC)を用いたソフトウェアとハードウェアとの組み合わせ)によって表すことができ、ソフトウェアは、記憶媒体(例えば、I/Oデバイス706)からロードされ、汎用コンピューティングデバイス700のメモリ704内でプロセッサ702によって動作する。従って、一実施形態では、前述の図を参照して本明細書で説明した、電子文書を自動的に要約するための要約モジュール705を、非一時的コンピュータ可読媒体(例えば、RAM、磁気又は光のドライブ又はディスケット、及び同様のもの)に格納することができる。
明示していないが、本明細書で説明する方法の1つ又はそれ以上の段階は、特定のアプリケーション関して要求されるように、格納する段階、表示する段階、及び/又は出力する段階を含むことができることに留意されたい。言い換えれば、これらの方法において説明したデータ、レコード、フィールド、及び/又は中間結果は、のアプリケーション関して要求されるように、格納する、表示する、及び/又は別のデバイスに出力することができる。さらに、判定動作を列記した、又は決定を含む、添付図における段階又はブロックは、必ずしも判定動作の両方の分枝を実行することを必要とするものではない。言い換えれば、判定動作の分枝のうちの一方は、選択的な段階とみなすことができる。本明細書において、本発明の教示を組み込む様々な実施形態を示し、詳細に説明したが、当業者は、これらの教示を依然として組み込む多くの別の実施形態を容易に考案することができる。
100 通信ネットワーク
102 コアネットワーク
104 アプリケーションサーバ
106 データベース
120、122 アクセスネットワーク
108、110、112、114 ユーザ端末デバイス

Claims (16)

  1. コンピュータが実行する電子文書を要約するための方法であって、
    前記電子文書を、複数の語句に分割する分割工程と、
    前記分割工程によって分割された複数の語句の各々の情報性を、当該複数の語句の各々をノードとし、当該複数の語句間のリンクをエッジとし、当該リンクが当該語句間の類似度により重み付けされた有向グラフ内の際立ったノードを当該有向グラフ上のランダムウォークによって識別する機械学習アルゴリズムに従って、情報性スコアとして評価し、かつ、前記分割工程によって分割された複数の語句の各々の一貫性を、当該複数の語句の各々を判読可能にするブール特徴に基づいて、一貫性スコアとして評価する評価工程と、
    前記評価工程によって評価された情報性スコアが第1の所定の閾値より大きい又は等しく、かつ、前記評価工程によって評価された一貫性スコアが第2の所定の閾値よりも大きい又は等しい前記複数の語の各々からなる部分列であって、前記評価工程によって評価された前記複数の語句の各々の前記情報性スコアの総計が最大化され、かつ、列の総計長さが長さ上限よりも短い又はそれに等しい部分列を自動的に選択する選択工程と、
    前記選択工程によって選択された部分列を前記電子文書の要約として配列する配列工程と、
    を含んだことを特徴とする方法。
  2. 前記部分列は、前記複数の語句の全てよりも少ない語句を含む、請求項1に記載の方法。
  3. 前記複数の語句のうちの少なくとも1つは文を含む、請求項1に記載の方法。
  4. 前記分割工程の後で前記選択工程の前に、前記複数の語句の各々の枝刈りを行う工程をさらに含む、請求項1に記載の方法。
  5. 前記選択工程は、組み合わせ最適化器としてナップザック問題を解くプログラミング手法を用いて実行される、請求項1に記載の方法。
  6. 前記選択工程は、前記複数の語句のうちで、前記部分列の現在の総計長さを超える長さを有する語句を、前記部分列内への包含から除外する工程を含む、請求項1に記載の方法。
  7. 前記選択工程は、前記複数の語句のうちの所与の語句に関して、前記所与の語句が除外され、総計長さが前記長さ上限よりも短い又はそれに等しい、前記複数の語句からなる最も情報性の高い部分列、に関連する前記情報性スコアの合計値である第1の合計値を算出する第1の算出工程と、
    前記第1の合計値から前記所与の語句の長さを減算した値に等しい第1の値と、前記所与の語句の前記情報性スコアである第2の値との合計値である第2の合計値を算出する第2の算出工程と、
    前記所与の語句を前記部分列内に含めるか否かを、前記第1の算出工程によって算出された前記第1の合計値と前記第2の算出工程によって算出された前記第2の合計値との比較に基づいて決定する決定工程と、
    を含む、請求項1に記載の方法。
  8. 前記決定工程は、
    前記第2の合計値が前記第1の合計値よりも大きい場合に、前記所与の語句を前記部分列内に含める工程と、
    前記第1の合計値が前記第2の合計値よりも大きい場合に、前記所与の語句を前記部分列から除外する工程と、
    を含む、請求項に記載の方法。
  9. 前記複数の語句は、前記複数の語句の各々が前記電子文書内で出現する順序により整列する、請求項1に記載の方法。
  10. 前記分割工程、前記評価工程、前記選択工程、及び前記配列工程の前に、前記電子文書が要約可能であることを判定する判定工程をさらに含む、請求項1に記載の方法。
  11. 前記判定工程は、
    前記電子文書に関して、前記電子文書の複数の特徴を含む特徴ベクトルを生成する特徴ベクトル生成工程と、
    前記複数の特徴の各々に重み値を割り当てる重み値割り当て工程と、
    前記電子文書が要約可能であるか否かを示すスコアを、前記複数の特徴の各々に割り当てられた前記重み値に従って前記電子文書に割り当てるスコア割り当て工程と、
    を含む、請求項10に記載の方法。
  12. 前記重み値は、自動的に学習される、請求項11に記載の方法。
  13. 前記重み値割り当て工程は、前記複数の特徴のうちの所与の特徴に関して、
    前記所与の特徴が、要約可能な文書を含む学習例のセットにおいて少なくとも所定の頻度で出現する場合に、前記重み値を増加させる工程と、
    前記所与の特徴が、要約不可能な文書を含む学習例のセットにおいて少なくとも所定の頻度で出現する場合に、前記重み値を低減させる工程と、
    を含む、請求項12に記載の方法。
  14. 前記重み値割り当て工程及び前記スコア割り当て工程は、前記電子文書が記述された言語に特有の方法で実行される、請求項13に記載の方法。
  15. 電子文書を要約するための実行可能プログラム含む有形のコンピュータ可読媒体であって、
    前記プログラムは、
    前記電子文書を、複数の語句に分割する分割手順と、
    前記分割手順によって分割された複数の語句の各々の情報性を、当該複数の語句の各々をノードとし、当該複数の語句間のリンクをエッジとし、当該リンクが当該語句間の類似度により重み付けされた有向グラフ内の際立ったノードを当該有向グラフ上のランダムウォークによって識別する機械学習アルゴリズムに従って、情報性スコアとして評価し、かつ、前記分割手順によって分割された複数の語句の各々の一貫性を、当該複数の語句の各々を判読可能にするブール特徴に基づいて、一貫性スコアとして評価する評価手順と、
    前記評価手順によって評価された情報性スコアが第1の所定の閾値より大きい又は等しく、かつ、前記評価手順によって評価された一貫性スコアが第2の所定の閾値よりも大きい又は等しい前記複数の語の各々からなる部分列であって、前記評価手順によって評価された前記複数の語句の各々の前記情報性スコアの総計が最大化され、かつ、列の総計長さが長さ上限よりも短い又はそれに等しい部分列を自動的に選択する選択手順と、
    前記選択手順によって選択された部分列を前記電子文書の要約として配列する配列手順と、
    を含む動作を実行する、有形のコンピュータ可読媒体。
  16. 電子文書を要約するためのシステムであって、
    プロセッサと、
    前記プロセッサに、
    前記電子文書を、複数の語句に分割する分割ステップと、
    前記分割ステップによって分割された複数の語句の各々の情報性を、当該複数の語句の各々をノードとし、当該複数の語句間のリンクをエッジとし、当該リンクが当該語句間の類似度により重み付けされた有向グラフ内の際立ったノードを当該有向グラフ上のランダムウォークによって識別する機械学習アルゴリズムに従って、情報性スコアとして評価し、かつ、前記分割ステップによって分割された複数の語句の各々の一貫性を、当該複数の語句の各々を判読可能にするブール特徴に基づいて、一貫性スコアとして評価する評価ステップと、
    前記評価ステップによって評価された情報性スコアが第1の所定の閾値より大きい又は等しく、かつ、前記評価ステップによって評価された一貫性スコアが第2の所定の閾値よりも大きい又は等しい前記複数の語の各々からなる部分列であって、前記評価ステップによって評価された前記複数の語句の各々の前記情報性スコアの総計が最大化され、かつ、列の総計長さが長さ上限よりも短い又はそれに等しい部分列を自動的に選択する選択ステップと、
    前記選択ステップによって選択された部分列を前記電子文書の要約として配列する配列ステップと、
    を含む動作を実施させる実行可能プログラムを含むコンピュータ可読媒体と、
    を備えるシステム。
JP2014535720A 2011-10-14 2012-09-11 電子文書の内容を自動的に要約するための方法、有形のコンピュータ可読媒体及びシステム Active JP6110389B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
GBGB1117848.0A GB201117848D0 (en) 2011-10-14 2011-10-14 Text compression
GBGB1117848.0 2011-10-14
GBGB1121033.3A GB201121033D0 (en) 2011-12-07 2011-12-07 Text compression
GBGB1121033.3 2011-12-07
US201161568188P 2011-12-08 2011-12-08
US61/568,188 2011-12-08
PCT/US2012/054572 WO2013066497A1 (en) 2011-10-14 2012-09-11 Method and apparatus for automatically summarizing the contents of electronic documents

Publications (2)

Publication Number Publication Date
JP2014528620A JP2014528620A (ja) 2014-10-27
JP6110389B2 true JP6110389B2 (ja) 2017-04-05

Family

ID=48192575

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014535720A Active JP6110389B2 (ja) 2011-10-14 2012-09-11 電子文書の内容を自動的に要約するための方法、有形のコンピュータ可読媒体及びシステム

Country Status (9)

Country Link
US (2) US9916309B2 (ja)
EP (1) EP2756425B1 (ja)
JP (1) JP6110389B2 (ja)
CN (1) CN103874994B (ja)
AU (1) AU2012327239B8 (ja)
CA (1) CA2851772C (ja)
IL (1) IL231802A (ja)
RU (1) RU2595594C2 (ja)
WO (1) WO2013066497A1 (ja)

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201217334D0 (en) 2012-09-27 2012-11-14 Univ Swansea System and method for data extraction and storage
WO2014078449A2 (en) * 2012-11-13 2014-05-22 Chen Steve Xi Intelligent information summarization and display
US9576249B2 (en) * 2013-03-18 2017-02-21 Educational Testing Service System and method for automated scoring of a summary-writing task
US9727641B2 (en) 2013-04-25 2017-08-08 Entit Software Llc Generating a summary based on readability
US20140372419A1 (en) * 2013-06-13 2014-12-18 Microsoft Corporation Tile-centric user interface for query-based representative content of search result documents
JP6150282B2 (ja) * 2013-06-27 2017-06-21 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答システム及びコンピュータプログラム
WO2015033341A1 (en) * 2013-09-09 2015-03-12 Sami Shamoon College Of Engineering (R.A.) Polytope based summarization method
US9832284B2 (en) 2013-12-27 2017-11-28 Facebook, Inc. Maintaining cached data extracted from a linked resource
US10133710B2 (en) * 2014-02-06 2018-11-20 Facebook, Inc. Generating preview data for online content
US10282469B2 (en) 2014-03-25 2019-05-07 Oath Inc. System and method for summarizing a multimedia content item
US9940322B2 (en) * 2014-03-31 2018-04-10 International Business Machines Corporation Term consolidation for indices
US9317498B2 (en) 2014-05-23 2016-04-19 Codeq Llc Systems and methods for generating summaries of documents
US10567327B2 (en) 2014-05-30 2020-02-18 Facebook, Inc. Automatic creator identification of content to be shared in a social networking system
KR20150138742A (ko) * 2014-06-02 2015-12-10 삼성전자주식회사 컨텐츠 처리 방법 및 그 전자 장치
KR20160058587A (ko) * 2014-11-17 2016-05-25 삼성전자주식회사 문서 요약을 위한 디스플레이 장치 및 방법
JP6232390B2 (ja) * 2015-02-10 2017-11-15 日本電信電話株式会社 テキスト要約装置、方法、及びプログラム
CN106033567B (zh) * 2015-03-18 2019-10-29 联想(北京)有限公司 一种信息处理方法及电子设备
US20160299881A1 (en) * 2015-04-07 2016-10-13 Xerox Corporation Method and system for summarizing a document
US9946924B2 (en) * 2015-06-10 2018-04-17 Accenture Global Services Limited System and method for automating information abstraction process for documents
US9755996B2 (en) 2015-08-11 2017-09-05 International Business Machines Corporation Messaging in attention critical environments
US10191970B2 (en) 2015-08-19 2019-01-29 International Business Machines Corporation Systems and methods for customized data parsing and paraphrasing
KR101656245B1 (ko) * 2015-09-09 2016-09-09 주식회사 위버플 문장 추출 방법 및 시스템
US10762283B2 (en) * 2015-11-20 2020-09-01 Adobe Inc. Multimedia document summarization
US20170161372A1 (en) * 2015-12-04 2017-06-08 Codeq Llc Method and system for summarizing emails and extracting tasks
US11922300B2 (en) * 2016-03-01 2024-03-05 Microsoft Technology Licensing, Llc. Automated commentary for online content
FI20165240A (fi) * 2016-03-22 2017-09-23 Utopia Analytics Oy Menetelmä, järjestelmä ja väline sisällön moderointiin
US10776846B2 (en) * 2016-07-27 2020-09-15 Nike, Inc. Assortment optimization
US9946933B2 (en) * 2016-08-18 2018-04-17 Xerox Corporation System and method for video classification using a hybrid unsupervised and supervised multi-layer architecture
US10453354B2 (en) * 2016-12-28 2019-10-22 Coursera, Inc. Automatically generated flash cards
EP3382575A1 (en) 2017-03-27 2018-10-03 Skim It Ltd Electronic document file analysis
US10692594B2 (en) * 2017-05-02 2020-06-23 eHealth Technologies Methods for improving natural language processing with enhanced automated screening for automated generation of a clinical summarization report and devices thereof
US11842251B2 (en) 2017-06-12 2023-12-12 Microsoft Technology Licensing, Llc Automated comprehension and interest-based optimization of content
JP6972788B2 (ja) * 2017-08-31 2021-11-24 富士通株式会社 特定プログラム、特定方法および情報処理装置
RU2666277C1 (ru) * 2017-09-06 2018-09-06 Общество с ограниченной ответственностью "Аби Продакшн" Сегментация текста
US10902478B2 (en) * 2017-09-25 2021-01-26 International Business Machines Corporation Creative support for ad copy editors using lexical ambiguity
CN107766324B (zh) * 2017-09-25 2020-09-01 浙江大学 一种基于深度神经网络的文本一致性分析方法
JP6865183B2 (ja) * 2018-02-26 2021-04-28 日本電信電話株式会社 要約評価装置、方法、プログラム、及び記憶媒体
JP6867963B2 (ja) * 2018-02-26 2021-05-12 日本電信電話株式会社 要約評価装置、方法、プログラム、及び記憶媒体
US10685050B2 (en) * 2018-04-23 2020-06-16 Adobe Inc. Generating a topic-based summary of textual content
EP3575987A1 (en) * 2018-06-01 2019-12-04 Fortia Financial Solutions Extracting from a descriptive document the value of a slot associated with a target entity
US10831834B2 (en) * 2018-11-27 2020-11-10 Sap Se Unsupervised document summarization by attention and reconstruction
US11238215B2 (en) * 2018-12-04 2022-02-01 Issuu, Inc. Systems and methods for generating social assets from electronic publications
CN111382560A (zh) * 2018-12-13 2020-07-07 鸿合科技股份有限公司 一种制作课件方法及系统、电子设备
US11500942B2 (en) * 2019-06-07 2022-11-15 Adobe Inc. Focused aggregation of classification model outputs to classify variable length digital documents
US11941706B2 (en) 2019-09-16 2024-03-26 K1X, Inc. Machine learning system for summarizing tax documents with non-structured portions
US11610588B1 (en) * 2019-10-28 2023-03-21 Meta Platforms, Inc. Generating contextually relevant text transcripts of voice recordings within a message thread
CN111079422B (zh) * 2019-12-13 2023-07-14 北京小米移动软件有限公司 关键词提取方法、装置及存储介质
US11397892B2 (en) 2020-05-22 2022-07-26 Servicenow Canada Inc. Method of and system for training machine learning algorithm to generate text summary
CA3190303A1 (en) * 2020-07-27 2022-02-03 Overlooked, Inc. System and method for addressing disinformation
US11263407B1 (en) * 2020-09-01 2022-03-01 Rammer Technologies, Inc. Determining topics and action items from conversations
US11561523B2 (en) 2020-11-11 2023-01-24 Mapped Inc. Subtended device mapping through controller introspection
US11093718B1 (en) * 2020-12-01 2021-08-17 Rammer Technologies, Inc. Determining conversational structure from speech
US20220391576A1 (en) * 2021-06-08 2022-12-08 InCloud, LLC System and method for constructing digital documents
US20220391429A1 (en) * 2021-06-08 2022-12-08 InCloud, LLC System and method for constructing digital documents
US11302314B1 (en) 2021-11-10 2022-04-12 Rammer Technologies, Inc. Tracking specialized concepts, topics, and activities in conversations
WO2023215892A1 (en) 2022-05-06 2023-11-09 Mapped Inc. Ensemble learning for extracting semantics of data in building systems
US11599713B1 (en) 2022-07-26 2023-03-07 Rammer Technologies, Inc. Summarizing conversational speech

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7051024B2 (en) * 1999-04-08 2006-05-23 Microsoft Corporation Document summarizer for word processors
US6353824B1 (en) * 1997-11-18 2002-03-05 Apple Computer, Inc. Method for dynamic presentation of the contents topically rich capsule overviews corresponding to the plurality of documents, resolving co-referentiality in document segments
US6533822B2 (en) * 1998-01-30 2003-03-18 Xerox Corporation Creating summaries along with indicators, and automatically positioned tabs
US6789230B2 (en) * 1998-10-09 2004-09-07 Microsoft Corporation Creating a summary having sentences with the highest weight, and lowest length
US6317708B1 (en) * 1999-01-07 2001-11-13 Justsystem Corporation Method for producing summaries of text document
US6766287B1 (en) * 1999-12-15 2004-07-20 Xerox Corporation System for genre-specific summarization of documents
US7302637B1 (en) * 2000-07-24 2007-11-27 Research In Motion Limited System and method for abbreviating information sent to a viewing device
JP2002073644A (ja) * 2000-08-28 2002-03-12 Suuri Giken:Kk 重要文抽出処理装置、重要文抽出処理方法、および重要文抽出処理プログラムを格納したコンピュータ読み取り可能な記憶媒体
US7607083B2 (en) * 2000-12-12 2009-10-20 Nec Corporation Test summarization using relevance measures and latent semantic analysis
US7139752B2 (en) * 2003-05-30 2006-11-21 International Business Machines Corporation System, method and computer program product for performing unstructured information management and automatic text analysis, and providing multiple document views derived from different document tokenizations
CN1609845A (zh) * 2003-10-22 2005-04-27 国际商业机器公司 用于改善由机器自动生成的摘要的可读性的方法和装置
US7346494B2 (en) * 2003-10-31 2008-03-18 International Business Machines Corporation Document summarization based on topicality and specificity
CN1614585A (zh) 2003-11-07 2005-05-11 摩托罗拉公司 文本概括
US7310633B1 (en) * 2004-03-31 2007-12-18 Google Inc. Methods and systems for generating textual information
US8868670B2 (en) * 2004-04-27 2014-10-21 Avaya Inc. Method and apparatus for summarizing one or more text messages using indicative summaries
US7392474B2 (en) * 2004-04-30 2008-06-24 Microsoft Corporation Method and system for classifying display pages using summaries
US7698339B2 (en) * 2004-08-13 2010-04-13 Microsoft Corporation Method and system for summarizing a document
JP2006059082A (ja) * 2004-08-19 2006-03-02 Yokohama National Univ 文書要約システム及び文書要約方法及びプログラムを記録したコンピュータ読み取り可能な記録媒体及びプログラム
US20060206806A1 (en) * 2004-11-04 2006-09-14 Motorola, Inc. Text summarization
US20060122889A1 (en) * 2004-11-22 2006-06-08 Microsoft Corporation System and method for managing a plurality of content items displayed in a particular placement position on a rendered page
US7424670B2 (en) * 2005-09-09 2008-09-09 Microsoft Corporation Annotating documents in a collaborative application with data in disparate information systems
US7831597B2 (en) * 2005-11-18 2010-11-09 The Boeing Company Text summarization method and apparatus using a multidimensional subspace
US7752204B2 (en) * 2005-11-18 2010-07-06 The Boeing Company Query-based text summarization
US7702680B2 (en) * 2006-11-02 2010-04-20 Microsoft Corporation Document summarization by maximizing informative content words
US7783640B2 (en) * 2006-11-03 2010-08-24 Oracle International Corp. Document summarization
US20080109454A1 (en) * 2006-11-03 2008-05-08 Willse Alan R Text analysis techniques
US8543380B2 (en) * 2007-10-05 2013-09-24 Fujitsu Limited Determining a document specificity
US20100161378A1 (en) * 2008-12-23 2010-06-24 Vanja Josifovski System and Method for Retargeting Advertisements Based on Previously Captured Relevance Data
JP2009146447A (ja) * 2009-03-23 2009-07-02 Nec Corp テキスト要約システム、テキスト要約方法、および、テキスト要約プログラム
US8245135B2 (en) * 2009-09-08 2012-08-14 International Business Machines Corporation Producing a visual summarization of text documents
JP5273735B2 (ja) * 2009-10-13 2013-08-28 日本電信電話株式会社 テキスト要約方法、その装置およびプログラム
JP5235918B2 (ja) * 2010-01-21 2013-07-10 日本電信電話株式会社 テキスト要約装置、テキスト要約方法及びテキスト要約プログラム
US8594998B2 (en) * 2010-07-30 2013-11-26 Ben-Gurion University Of The Negev Research And Development Authority Multilingual sentence extractor
US20120076414A1 (en) * 2010-09-27 2012-03-29 Microsoft Corporation External Image Based Summarization Techniques
TWI453609B (zh) * 2011-11-23 2014-09-21 Esobi Inc Automatic summary judgment method for file cluster
US8886651B1 (en) * 2011-12-22 2014-11-11 Reputation.Com, Inc. Thematic clustering
US9959579B2 (en) * 2013-03-12 2018-05-01 Microsoft Technology Licensing, Llc Derivation and presentation of expertise summaries and interests for users
US10042924B2 (en) * 2016-02-09 2018-08-07 Oath Inc. Scalable and effective document summarization framework
US9767165B1 (en) * 2016-07-11 2017-09-19 Quid, Inc. Summarizing collections of documents

Also Published As

Publication number Publication date
CN103874994B (zh) 2017-09-08
CN103874994A (zh) 2014-06-18
AU2012327239B2 (en) 2015-09-24
US9916309B2 (en) 2018-03-13
EP2756425A1 (en) 2014-07-23
JP2014528620A (ja) 2014-10-27
WO2013066497A9 (en) 2014-01-03
AU2012327239A1 (en) 2013-06-27
CA2851772A1 (en) 2013-05-10
RU2595594C2 (ru) 2016-08-27
EP2756425A4 (en) 2015-06-03
AU2012327239B8 (en) 2015-10-29
US10599721B2 (en) 2020-03-24
US20180196804A1 (en) 2018-07-12
EP2756425B1 (en) 2020-11-11
WO2013066497A1 (en) 2013-05-10
US20150095770A1 (en) 2015-04-02
IL231802A (en) 2017-02-28
IL231802A0 (en) 2014-05-28
RU2014119239A (ru) 2015-11-20
CA2851772C (en) 2017-03-28

Similar Documents

Publication Publication Date Title
JP6110389B2 (ja) 電子文書の内容を自動的に要約するための方法、有形のコンピュータ可読媒体及びシステム
US20210157984A1 (en) Intelligent system that dynamically improves its knowledge and code-base for natural language understanding
US10921956B2 (en) System and method for assessing content
US11550835B2 (en) Systems and methods for automatically generating content summaries for topics
CN106599022B (zh) 基于用户访问数据的用户画像形成方法
US11200503B2 (en) Search system and corresponding method
US8874590B2 (en) Apparatus and method for supporting keyword input
WO2010014082A1 (en) Method and apparatus for relating datasets by using semantic vectors and keyword analyses
US20110219299A1 (en) Method and system of providing completion suggestion to a partial linguistic element
Bhattacharjee et al. Sentiment analysis using cosine similarity measure
JP2008217157A (ja) 操作履歴を利用した自動情報整理装置、方法、およびプログラム
RU2711123C2 (ru) Способ и система компьютерной обработки одной или нескольких цитат в цифровых текстах для определения их автора
CN110609997B (zh) 生成文本的摘要的方法和装置
Saravanan et al. Extraction of Core Web Content from Web Pages using Noise Elimination.
JP2013084216A (ja) 定型文判別装置及び定型文判別方法
CN112287229B (zh) 一种基于组合语义相似度的国防建设动态信息推荐方法
Khobragade et al. Sentiment Analysis of Movie Reviews.
Teng et al. Notice of Violation of IEEE Publication Principles: A foundation for knowledge system with application in information retrieval and knowledge acquisition
Islam et al. An effective term weighting method using random walk model for text classification
CN115221264A (zh) 一种文本处理方法、装置及可读存储介质
JP2011113097A (ja) 未知語を含む文章を修正するための文章修正プログラム、方法及び文章解析サーバ
Ma et al. An FW-BF Based Approach on Elimination of Duplicated Web Pages

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20150511

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150827

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160729

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161003

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170221

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170309

R150 Certificate of patent or registration of utility model

Ref document number: 6110389

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350