JP4851789B2 - ユーザ関心反映型検索結果指示子使用及び作成システム及び方法 - Google Patents

ユーザ関心反映型検索結果指示子使用及び作成システム及び方法 Download PDF

Info

Publication number
JP4851789B2
JP4851789B2 JP2005364245A JP2005364245A JP4851789B2 JP 4851789 B2 JP4851789 B2 JP 4851789B2 JP 2005364245 A JP2005364245 A JP 2005364245A JP 2005364245 A JP2005364245 A JP 2005364245A JP 4851789 B2 JP4851789 B2 JP 4851789B2
Authority
JP
Japan
Prior art keywords
user interest
user
reflection type
chapter
search result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005364245A
Other languages
English (en)
Other versions
JP2006178978A5 (ja
JP2006178978A (ja
Inventor
ジー ボブロウ ダニエル
エム カプラン ロナルド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Palo Alto Research Center Inc
Original Assignee
Palo Alto Research Center Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Palo Alto Research Center Inc filed Critical Palo Alto Research Center Inc
Publication of JP2006178978A publication Critical patent/JP2006178978A/ja
Publication of JP2006178978A5 publication Critical patent/JP2006178978A5/ja
Application granted granted Critical
Publication of JP4851789B2 publication Critical patent/JP4851789B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、テキストその他のコンテンツを要約して検索結果の意味を表す見出しを提示する技術に関する。
検索システムに対し検索語を与えたときに返ってくる返答には、通常、与えた検索語に関わる文書群へのリンク情報が含まれており、また、システムによっては、リンク先文書に対しそれぞれ検索語との関連度に応じランクが付されている。更に、検索システムの中には、文書のうちどの部分が検索語に関わる部分なのかを示すことによって、ユーザ本人がリンク先文書群の中から自分の必要に合致している文書を選択できるよう、ユーザを手助けするシステムもある。しかしながら、その種の既存検索システムの多くは、文書のうち一部分即ち検索語及びその前後を単純に切り出して表示するだけであり、そうして切り出された部分は文法的に完成した文章になっておらず読みづらいものである。更に、切り出された部分がユーザの関心を反映したものになっていないこともあろう。
米国特許第5438511号明細書 米国特許出願公開第2004/230415号明細書 S. Riezler et al., "Statistical Sentence Condensation Using Packing and Stochastic Disambiguation Methods for Lexical-Functional Grammer", in Proceedings of HLT-NAACL 2003, Main Papers, pp.118-125, Edmonton, May-June 2003 R. Mitkov, "Introduction to the Special Issue on Computational Anaphora Resolution", in Computational Linguistics Vol.27, Issue 4, pp.473-477, December 2001 A. Frank, "From Parallel Grammer Development towards Machine Translation - A Project Overview -", in Proceedings of the MT Summit VII: MT in the Great Translation Era, pp.134-142, 1999 R. Kaplan et al., "Lexical Functional Grammer: A Formal System for Grammatical Representation", in "Formal Issues in Lexical-Functional Grammer" ed. by M. Dalrymple, R. Kaplan, J. Maxwell and A. Zaenen, 1995 J. Maxwell III et al., "A Method for Disjunctive Constraint Satisfaction", in "Current Issues in Parsing Technology", ed. by Masaru Tomita, Kluwer Academic Publishers, pp.173-190, 1991 U. Hahn,"Automatic Text Summarization Methods, Systems, Evaluation", Text Knowledge Engineering Lab., Freiburg University, Germany, [online], Internet URL:www.coling.uni-freiburg.de/teaching/studies/jena/ss04/introduction.ppt Paul and Carol Kiparsky, especially in "Fact" re-printed from "Progress in Linguistics", pp.143-173, ed. by M. Bierwisch and K. Heidolph, The Hague: Mouton, 1970 R. Kaplan, "Three Seductions of Conceptual Psycholinguistics", in "Linguistic Theory and Computer Applications", ed. by Peter Whitelock, Mary McGee Wood, Harold L. Somers, Rod Johnson and Paul Bennet, pp.149-188, London Academic Press, 1987
従って、章句の意味を示したやすく読み取れるユーザ関心反映型検索結果指示子を作成できるシステム及び方法があれば、有用であると言えよう。
ここに、本発明の一実施形態に係るユーザ関心反映型検索結果指示子(user-interest sensitive indicators of search results)作成方法は、何個かの検索語を特定するステップと、ユーザ関心情報を特定するステップと、上記検索語に基づき何個かの文書を特定するステップと、検索語及び上記ユーザ関心情報に基づき各文書中から何個かの章句を特定するステップと、何個かの要約変換子(condensation transformations)を決定するステップと、各文書から特定された章句毎に且つ上記検索語、上記ユーザ関心情報及び上記要約変換子に基づき何個かの検索結果指示子を作成するステップと、を有するものである。
図1に、本発明の一実施形態に係るユーザ関心反映型検索結果指示子作成システム1000の実施環境を、図3にその内部構成をそれぞれ示す。これらの図に示すユーザ関心反映型検索結果指示子作成システム1000は、任意のコンピュータ又はコンピュータ関連機器の内外を通る通信リンク99に接続されている。この通信リンク99には、例えば、通信機能付パーソナルコンピュータ900、ユーザ関心情報レポジトリ1200、テキスト文書1100〜1101をアクセス可能に保持している情報レポジトリ1300、インターネット接続機能付スマートホン1400等を、随時接続することができる。ユーザ関心反映型検索結果指示子作成システム1000は、こうした接続を介して随時、テキスト文書1100〜1101にアクセスする。
情報レポジトリ1300は、例えば、HTML(hyper text markup language)、XML(extensible markup language)、WML(wireless markup language)等の形式に従いエンコードされているファイルを提供するウェブサーバや、Microsoft(登録商標)Word、Adobe(登録商標)PDF(portable document format)等の形式の文書をアクセス可能に格納しているディジタルライブラリ等によって、実現することができる。また、ユーザ関心情報レポジトリ1200及び情報レポジトリ1300をユーザ関心反映型検索結果指示子作成システム1000に統合した形で、本発明を実施することもできる。更に、それらを単体のデバイスに組み込んだ形で、本発明を実施することもできる。組込先となる単体のデバイスは、既知の又は今後開発される単体のデバイスであって検索対象文書を格納するのに有効利用できるもの、例えば、Personal Jukebox(商標)、Apple(登録商標)Computer iPod(登録商標)等のように記憶機能を有するディジタルデバイスである。
何れの形態で実施するにしろ、文書検索動作はまずユーザが何個かの検索語を与えることによって開始される。例えば、ユーザが検索語“Igor Domaradsky”(人名)及び検索語“plague”(疫病/ペスト)を含む検索要求を発すると、プロキシとして動作するユーザ関心反映型検索結果指示子作成システム1000は入出力回路100にてこの検索要求を受け取り、ユーザ関心情報レポジトリ1200からユーザ関心情報を取り寄せるかメモリ300からユーザ関心情報を読み込む一方、検索エンジン、インデキシングサービス等に対して問い合わせを行う。問い合わせを受けた検索エンジンやインデキシングサービスは、検索語である“Igor Domaradsky”及び“plague”を含む文書が情報レポジトリ1300上にあるかどうか検索を行い、検索結果や、検索語を含む文書内章句といった情報を、ユーザ関心反映型検索結果指示子作成システム1000に返送する。
ユーザ関心反映型検索結果指示子作成システム1000は、検索結果特定回路400にて取得した検索結果にて特定されている文書又はページの意味を表すユーザ関心焦点見出し(user-interest focused signal)を作成する。その際、本実施形態に係るユーザ関心反映型検索結果指示子作成システム1000は、その章句を使用すればその文書又はページを正しく取り寄せられるような章句を章句特定回路800により特定し、特定した章句又はそれを補強章句作成回路500により補強して得られる補強章句に基づき何通りかの要約を作成し、その要約を以てその文書又はページのコンテンツを示す見出しとする。要約作成に当たり、ユーザ関心反映型検索結果指示子作成システム1000は、文書又はページ内の章句からその任意部分を切り出すのではなくて、その章句に基づき且つユーザの関心を反映した形で要約を作成する。そうして得られる見出しは、ユーザが情報取り寄せのため与えた情報に対しぴったりと焦点があった情報になる。この見出しは、ユーザの関心に沿うようその意味を保持させながらより長い章句を要約したものであるから、その見出しを受け取ったユーザは、取り立てて頭脳の負担と感ずることなく且つ迅速に、その見出しによって指し示されている文書が自分の求めるものとどの程度関連するものであるかを、その見出しに基づき判断することができる。
ユーザ関心反映型検索結果指示子作成システム1000は、要約の作成を、検索結果にて指し示されている文書毎に、その文書に係る章句について実行する。その手段として、ユーザ関心反映型検索結果指示子作成システム1000のプロセッサ200は、内蔵型(図3)又は外付け(図5及び図7)のユーザ関心反映型要約作成マネージャ600を起動させる。起動したユーザ関心反映型要約作成マネージャ600は、構文解析文法(parsing grammer)情報を取り寄せ、その構文解析文法を使用し各章句に係る構造化意味表現(meaning structure/meaning structure representation)を作成する。その際、一般に1個の章句に対して相互交換性のある複数個の構造化意味表現を作成する。作成した構造化意味表現に対しては後に要約変換子を適用することとなるが、要約変換子適用時に発生するかもしれない意味上の歪曲を事前防止し、或いは要約変換子適用時に発生した意味上の歪曲を事後修復するには、何個かの意味歪曲制限子(meaning distortion constraints)を決定して構造化意味表現に適用するとよい。構造化意味表現に対し意味歪曲制限子を適用するタイミングは、要約変換子の適用と同時であってもよい(例えば意味歪曲制限子を要約変換子に組み込んでもよい)し、発生した意味歪曲を事後修正するためなら対構造化意味表現要約変換子適用後でもよい。
ユーザ関心反映型要約作成マネージャ600は、作成した構造化意味表現に対し要約変換子を適用してその構造化意味表現の構成要素を削除、統合、調整等することにより、何個かの構造化意味表現圧縮体(reduced meaning structure)を作成する。また、ユーザ関心情報(及び意味歪曲制限子)に従い要約変換子を適用することによって、作成した構造化意味表現圧縮体においてユーザの関心対象概念が保存されるようにする。一例を述べると、ユーザ関心反映型要約作成マネージャ600は、構造化意味表現圧縮体作成に際してまず、ユーザ関心情報の構成要素を各構造化意味表現の構成要素と比較し、後者のうち前者とマッチしているものをユーザ関心焦点要素として識別する。より具体的には、ユーザ関心情報に“plague”という語が含まれているなら各構造化意味表現の構成要素のうち概念的に“plague”と関連のある語をユーザ関心焦点要素として識別する、という具合である。ユーザ関心情報の構成要素と各構造化意味表現の構成要素との比較は、例えば、概念的類似性(conceptual similarity)判別、同義語・類義語判別、上位語判別、下位語判別といった字句的類似性(literal similarity)判別、統計的類似性(statistical similarity)判別、分布的類似性(distributional similarity)判別、共起類似性(co-occurence similarity)判別等、数ある類似性判別手法により、本発明の技術的範囲から逸脱することなく行うことができる。
例えば、ウェブ等の大規模文書データベース全体での分布的類似性指標を利用すれば、ユーザ関心情報の構成要素と各構造化意味表現の構成要素との類似性を判別することができる。2語間の分布的類似性の度合いは、それらの語が同一文内又は同一文書内で他の語群とどの程度共起するかによって、測ることができる。例えば、“cancer”(癌)及び“melanoma”(黒色腫)は“treatment”(処置/手術/治療)、“radiation”(放射線)等といった同じ語群と同じ文内又は同じ文書内で共起する。従って、“cancer”と“melanoma”の間には分布的類似性があると言える。
また、各構造化意味表現には、その構成要素として、LFG(lexical functional grammer)におけるf構造化意味表現(f-structure)等の構造化意味表現、HPSG(head-driven phrase structure grammer)における素性構造化意味表現(feature structure)や最小回帰構造化意味表現(minimum recursion semantic structure)、述語解析(predicate calculus)で使用される述語-項構造記述式(predicate-argument formula)例えば獲得知識(semantic fact)、といったものが含まれている(但しこれらに限られるものではない)。中でも獲得知識は、一組の項(独立変数)に対しある述語が適用されるという関係を示す単純な命題表現である。例えば、英文“John saw Bill”中の述語はsaw(seeの過去形)であり、その適用対象はJohnとBillであるから、この英文を獲得知識にエンコードすると命題“see(John,Bill)”となる。また、英文“Sam reaized that John saw Bill”中の主たる述語はrealize、その適用対象はSamとthat節であり、that節内の述語はsaw、その適用対象はJohnとBillであるから、この英文を獲得知識にエンコードすると“realize(Sam,P)”及びP=“see(John,Bill)”という2個の命題になる。
ユーザ関心反映型要約作成マネージャ600は、先に述べたようにユーザ関心焦点要素を識別した上で、その結果に基づき各構造化意味表現に要約変換子を適用して構造化意味表現圧縮体を作成する。即ち、各構造化意味表現の構成要素のうちユーザ関心情報の対応構成要素とマッチしているもの(ユーザ関心焦点要素)を、ユーザが多大な関心を抱くであろう保持優先度の高い構成要素(例えば獲得知識)としてマークし、マークした獲得知識が保存されるようなやり方で、また好ましくはマークしていない獲得知識が除外されるようなやり方で、各構造化意味表現に対し要約変換子を適用する。
要約変換子の適用目的は、各構造化意味表現に含まれる構成要素乃至獲得知識に対し削除、統合、変形等の操作を施し、これによる要約化を通じて何個かの構造化意味表現圧縮体を作成することにある。ユーザ関心焦点要素識別の際ユーザ関心情報を利用しているから、作成される各構造化意味表現圧縮体においては、特定された章句例えば検索語を含む章句に込められておりユーザが関心を抱くであろう概念が、高い確率を以て保持されることとなる。即ち、要約変換子によって作成される各構造化意味表現圧縮体(例えばテキスト型の構造化意味表現の圧縮体)においては、各構造化意味表現内の構成要素乃至獲得知識とユーザ関心情報内の構成要素乃至獲得知識との間の類似度に応じた優先度に従い、ユーザ関心焦点要素が保持されることとなる。また、要約変換子には意味歪曲制限子を組み込むことができる。意味歪曲制限子を適用することによって、作成される構造化意味表現圧縮体にて章句の意味に関する歪曲が発生する危険性を、減らすことができる。
ユーザ関心反映型要約作成マネージャ600は、作成した構造化意味表現圧縮体に対し多義性解消モデル(disambiguation model)を適用することによって、尤もらしい何個かの構造化意味表現圧縮体を候補として選択する。多義性解消モデルとしては、例えば、確率的多義性解消モデル、予測型多義性解消モデル等、何個かの構造化意味表現圧縮体の中から適当なものを選択できるモデルであって、使用する言語により記述されているものを何個か使用する。使用する多義性解消モデルに対しては、構造化意味表現圧縮体への適用ひいてはそれによる候補選択に先立って、トレーニングを施すとよい。このトレーニングは、例えば、トレーニングセット中の好適な例題に対し高い確率を割り当てることができ望ましくない又は不適当な例題に対し低い確率を割り当てることができるモデルとなるよう施されるものであり、こうしてトレーニングされた多義性解消モデルから得られる情報例えば確率情報は、トレーニングセットに含まれる素性の望ましさの度合いを測る代理指標となる。注記すべきことに、多義性解消モデルの適用によって候補に選択される何個かの構造化意味表現圧縮体が、自然言語文法例えば英文法に照らして正しい文或いは成り立っている文である必要はない。
ユーザ関心反映型要約作成マネージャ600は、それら候補たる構造化意味表現圧縮体に対し生成文法(generation grammer)を適用して何通りかの候補要約を作成し、作成した候補要約の中から、特定された章句それぞれについてユーザ関心反映型要約を選択する。このとき作成される候補要約は文法的に正しい文章であってもよいし正しくない文章であってもよい。ユーザ関心反映型要約を選択する都合からすると、作成した候補要約に対しランク付けしておくとよい。例えば、多義性解消モデルとして確率モデルや予測モデルを使用している場合はそうしたモデルから確率情報等のランキング情報が得られるから、そうした情報や、更にそれに文長短縮率等の情報を適宜組み合わせた情報を使用することによって、候補要約にランク付けすることができる。この場合に、特定された章句についてのユーザ関心反映型要約として選択されるのは、候補とされた構造化意味表現圧縮体の中で最高ランクを有するものである。以上のプロセスは、検索結果に示されている章句毎に繰り返し実行される。その上で、ユーザ関心反映型検索結果指示子作成システム1000のプロセッサ200は指示子作成回路700を起動させ、文書から特定された各章句に対応するユーザ関心反映型要約に基づき、ユーザ関心反映型検索結果指示子を作成させる。作成するユーザ関心反映型検索結果指示子に対しては、例えば、動的可選択ユーザインタフェース要素を対応付けることができる。動的可選択ユーザインタフェース要素を介し、ユーザは、ユーザ関心反映型要約やそれに対応する文書内章句を任意に表示させ、展開させ、また折り畳むことができる。
また、ユーザによるインターネット接続機能付スマートホン1400の操作によって、本発明のやり方による文書検索が開始されるようにしてもよい。その場合には、例えば、インターネット接続機能付スマートホン1400に内蔵される記憶装置内の文書の他、リモート情報レポジトリ、リモートパーソナルコンピュータ900等、通信リンク99を介してアクセス可能な場所にある文書が、検索対象となり得る。
ユーザは、インターネット接続機能付スマートホン1400に対して、音声認識、SMS(short message service)、キーボード等、既知の又は今後開発される入力方法により、検索語を入力する。ユーザ関心情報は、ユーザ関心情報レポジトリ1200内に蓄えておいてもよいし或いはインターネット接続機能付スマートホン1400側で保持しておいてもよく、何れにしても必要に応じて随時読み出すことができる。ユーザ関心情報レポジトリ1200からのユーザ関心情報の読出の際には、例えばユーザ識別子(ユーザID)を使用してユーザを識別する。また、インターネット接続機能付スマートホン1400でのユーザ関心情報の保持は、例えばそのスマートホン1400に内蔵又はセットされたスマートカードその他の記憶媒体を使用して行えばよい。
入力された検索語は、そのスマートホン1400側で保持している関連文書又は通信ネットワークを介してアクセスした先のリモートストレージ内に格納されている関連文書を選び出すのに、使用される。選んだ文書内に他所参照辞(non-local references)を介した参照関係が含まれている場合は、他所参照辞により参照されている照応辞を用いて参照元の他所参照辞を穴埋めし、補強章句(augmented passages)を作成することもできる。この章句又は補強章句に係るユーザ関心反映型検索結果指示子は、入力された検索語と読み出されたユーザ関心情報とに基づき要約変換子を適用することによって作成される。その結果得られるユーザ関心反映型検索結果指示子は、当該章句の構成要素を好適に且つ優先的に保持している意味見出しとなっており、またモバイルデバイス用の小型ディスプレイ上に容易に表示させることが可能な形式を有するものである。
更に、ユーザ関心反映型検索結果指示子作成システム1000をスタンドアロン読取装置1500に組み込んだ形で本発明を実施することもできる。スタンドアロン読取装置1500には情報レポジトリが組み込まれており、またこの情報レポジトリにはユーザ用パーソナルディジタルライブラリが格納されている。ユーザがスタンドアロン読取装置1500に何個かの検索語を入力すると、スタンドアロン読取装置1500に組み込まれているサーチマネージャ乃至システムがこれらの検索語に応じてライブラリ等の検索を行い、関連文書群の中からその検索語を含む章句を何個か識別、特定する。
その上で、この内蔵型のユーザ関心反映型検索結果指示子作成システム1000が起動され、ユーザ関心情報が読み込まれる。このときのユーザ関心情報の読込元は、例えば、RAM(random access memory)等のメモリデバイス、ディスクドライブ、スマートカード、メモリスティック(登録商標)その他、ユーザ関心情報を格納可能な各種の記憶媒体である。ユーザ関心反映型検索結果指示子作成システム1000は、ユーザ用パーソナルディジタルライブラリ等に格納されており以前に使用したことがある要約変換子を、識別された各文書内章句に適用することによって、検索語及びユーザ関心情報構成要素とマッチする章句構成要素を好適に且つ優先的に保持させる。こうして要約化された章句には、その章句の意味を表す見出しであるユーザ関心反映型検索結果指示子が、現れている。
図2に、本実施形態に係るユーザ関心反映型検索結果指示子作成システム1000の動作手順の一例を示す。この図はユーザ関心反映型要約作成マネージャ600を内蔵しているユーザ関心反映型検索結果指示子作成システム1000についての例を示すものであるが、原理的には外付け型の場合でも同様の動作とすることができる。この図に示すプロセスは、ステップS100にて開始された後直ちにステップS105に移行する(但しステップS105は本発明の実施に際し必須ではない)。ステップS105においては、ユーザが継続的に関心を抱いている概念を指し示す情報であるユーザ関心情報が特定される。ユーザ関心情報は、例えばメモリや、通信リンク99を介してアクセス可能なファイル内等の場所に格納されており、或いは随時必要に応じて作成される。例えば、ある文書を他の類似文書から区別しまたその違いを強調するような特徴的な語を、予めコンピュータ等により求めておき、ユーザがその文書を選択したときに、その文書に係る特徴的な語をそのユーザに係るユーザ関心情報に一時的に又は永久的に付加するようにすればよい。ステップS105実行後はプロセスはステップS110へと進む。
ステップS110においてはユーザが何個かの検索語を入力する。検索語の入力は、キーボード、手書き文字認識、音声認識その他、既知の又は今後開発される各種の入力方法によって行われる。入力される検索語はそのユーザにとり直近な関心を示す語であるが、本発明を実施する際には、例えばユーザ関心情報を利用して検索語に更なる調整乃至修正を施すこともできる。この後プロセスはステップS115に進む。
ステップS115においては文書検索結果が作成される。この文書検索結果には、検索語との関連性が最も高いと検索サービス乃至検索システムが判断した文書が現れる。その際、使用する検索サービス乃至検索システムによっては、各文書内における検索語の登場頻度(term frequency)や全文書に占める検索語登場文書の割合の逆数(inverse document frequency)に従い、検索結果内で各文書がランク付けされる。また、入力された検索語だけでなくその検索語に関連する語まで検索語を広げて、検索が行われるようにすることもできる。更に、文書中のどこに検索語が現れているかに応じて、検索結果内における文書のランクが調整されるようにすることもできる。結局、既知の又は今後開発されるどのような方法によって検索語から文書を選択するようにしたとしても、本発明の技術的範囲から逸脱することはない。この後プロセスはステップS120へと進む。
ステップS120においては検索語を含む何個かの章句が特定される。章句とは1個又は複数個の多語文を含むものをいう。章句の特定は、例えば、検索語とその前後にある何個かの語を一体に切り出すことによって行う。切り出す範囲は、例えば、その検索語の前後にある文区切りまでとすればよい。文区切りは、句点、読点、大文字等、周知の区切り指示表現を調べれば分かる。この後プロセスはステップS125へと進む。
ステップS125においては各章句内にある検索語が特定される。より厳密には、検索語として入力された語又はその構成要素と同一の又は類似している構成要素が、特定された章句内にあるかどうかが調べられる。入力された検索語に類似しているかどうか又はその度合いは、概念的類似性、屈折類似性(inflectional similarity)、分布的類似性その他、周知な各種の類似性指標に従い調べればよい。
ステップS130においては、他所参照辞(他所共参照情報)に基づき補強章句が作成される(但しステップS130は本発明の実施に際し必須ではない)。文に含まれ得る他所参照辞としては例えば代名詞がある。他所参照辞又はその前方にある前方照応辞(anaphora)を用いて表されている文は、仮にその他所参照辞又は前方照応辞を介した参照関係にある語句がユーザ関心対象概念を表す語句であったとしても、その文自体にはユーザ関心情報構成要素が明示されていないことが原因で、作成されるユーザ関心反映型検索結果指示子から省かれかねないものである。そこで、本ステップにおいては、章句内の他所参照辞、前方照応辞又はその双方を析出させ、析出した他所参照辞等に基づき補強章句を作成している。例えば、“Igor Domaradsky worked on bioweapons. He was most focused on plague.”という章句があるとする。この章句に含まれる文のうち2個目の文中の他所参照辞Heは1個目の文中にある前方照応辞Igor Domaradskyを参照しているから、2個目の文は“Igor Domaradsky was most focused on plague.”と同じ意味である。本ステップにおいては、2個目の文に含まれている他所参照辞Heの参照先たる前方照応辞Igor Domaradskyを用い、対応する他所参照辞Heを穴埋めすることにより、2個目の文を“Igor Domaradsky was most focused on plague.”に修正した補強章句が作成される。このように他所参照辞に着目して章句を補強することは、その章句によって表されている概念をより適切に要約する上で役立つことである。プロセスはこの後ステップS135へと進む。
ステップS135においては、検索語(及びユーザ関心情報)に基づき、作成済の(補強)章句について何個かのユーザ関心反映型要約が作成される。即ち、このステップにて作成される要約においては、(補強)章句に含まれる検索語及びそれに関連した概念が好適に且つ優先的に保持されており、元々の章句の意味合いがすり込まれている。
また、ユーザ関心情報を利用することによって、特定された章句の構成要素の保持に関する優先的取り扱いを修飾することができる。例えば、検索語に対しては比較的大きな重みを置く一方でユーザ関心情報の構成要素に対しては比較的小さな重みを置くようにする。これは、理論的に見て、ユーザが明示的に且つ自発的に自分の関心対象を示しているのが検索語であるのに対し、ユーザ関心情報によって表されているのはユーザ関心対象であるとはいえより一般的又は不特定的なものである、ということに基づいている。また、非特許文献8に記載されている優先度ユニオン(priority union)を用いて検索語とユーザ関心情報とを結び付けてもよい。優先度ユニオンを用いることにより、検索語とユーザ関心情報との干渉乃至抵触が、検索語優先的に解消されることとなる。プロセスはこの後ステップS140へと進む。
ステップS140においては、作成されたユーザ関心反映型要約に基づき何個かのユーザ関心反映型検索結果指示子が作成される。作成されるユーザ関心反映型検索結果指示子は一般に複数個の要約に対応している。即ち、ある文書を示す章句が複数個選択されている場合、章句毎に要約が作成されることから1個の文書に対して複数個の要約が作成されることとなり得る。ユーザ関心反映型検索結果指示子を作成する際には、その元となる要約を、例えば、その要約の元になった章句がその文書に現れている概念をどの程度良好に表しているのか、収集されている他の文書に対するその文書の相違がその要約内の語によってどの程度良好に示されているのか、等といった事項についての統計的指標に基づき、選択する。プロセスは、この後、作成したユーザ関心反映型検索結果指示子を出力するステップS145に進む。ユーザ関心反映型検索結果指示子の出力先は、例えば、コンピュータディスプレイ、音声合成回路、触覚ディスプレイ等、既知の又は今後開発される各種の出力装置である。プロセスはこの後ステップS150に進む。
ステップS150においては、現セッションを終了させる処理を開始してよいか(或いはそのように要求されているか)が、判定される。例えば、一連のキー操作、マシンシャットダウン、タイマ超過等が生じるとセッション終了処理が開始される。現セッションを終了すると判別されなかった場合は、プロセスはステップS110に戻り、ステップS110〜S150が繰り返される。ステップS150にて現セッションを終了すると判別された場合は、プロセスはステップS155に進んで終了する。
図4に、本実施形態に係るプロセスを、図5に示すような外付け型のユーザ関心反映型要約作成マネージャ600を用いて実行した場合に、主としてユーザ関心反映型要約作成マネージャ600により実行されるユーザ関心反映型要約生成手順の一例を示す。このプロセスはS200にて開始された後直ちにステップS205へと進む。
ステップS205においては、ユーザ関心反映型要約に要約されるべき章句が特定される。要約対象となる章句は、情報レポジトリ、インデクスサーバ、又は検索エンジンによる検索の結果から読み取ればよい。例えば、検索エンジン又は情報レポジトリからユーザ関心反映型検索結果指示子作成システム1000へと、関連する章句を直接に送りつけるようなプロトコルを用いるとよい。送りつけられた章句はユーザ関心反映型検索結果指示子作成システム1000からユーザ関心反映型要約作成マネージャ600へと転送され、入出力回路605を介してプロセッサ610に入力される。
また、特定した章句については、その章句内の構成要素と同章句内にある他の構成要素との共参照関係を表す語句、即ち他所参照辞乃至共参照情報に基づき、補強するとよい。語句間の共参照関係については非特許文献2を参照されたい。この後プロセスはユーザ関心情報を特定するステップS210へと進む。ステップS210においてはプロセッサ610がユーザ関心情報レポジトリ1200から(ユーザ関心情報メモリ625上にない)ユーザ関心情報を取り寄せてメモリ615に格納する。このユーザ関心情報は、キーワード、同義語・類義語、上位語、下位語等により表現され、必要なら検索語と優先度ユニオンを組む。プロセッサ610は構造化意味表現作成回路620を起動して何個かの構造化意味表現を作成させ、更にユーザ関心マッチング回路630を起動させて構造化意味表現内のユーザ関心焦点要素を特定する。プロセスは更にステップS215へと進む。
ステップS215においては何個かの要約変換子が決定される。要約変換子は、特定された章句の構成要素の統合、削除、変更等によって、その章句を圧縮する手段であり、プロセッサ610は例えばメモリ615から従前の要約変換子を読み出して使用する。要約変換子は例えばXLE(Xerox Linguistic Environment:「Xerox」は登録商標)にて準備されているリライトルール乃至関数/機能を使用して表現することができる。また、これ以外の各種言語解析ツール、関数/機能、環境等によって表現することもできる。この後プロセスはステップS220へと進む。
ステップS220においては、プロセッサ610が要約作成回路635を起動させ、メモリ615上又はユーザ関心情報メモリ625上のユーザ関心情報に基づき、且つ要約変換子を用いて、圧縮章句(構造化意味表現圧縮体)を作成させる。要約変換子は語句選択的に作用するので、使用するユーザ関心情報に基づきこれを適用することによって、章句内のあまり特徴的でない情報例えば各種の修飾語句が除去されることとなる。この後プロセスはステップS225へと進む。
ステップS225においては、圧縮章句に基づき要約作成回路635に何個かの候補要約を作成させる。候補要約は、その章句の意味を表すユーザ関心焦点表現を示す情報である。候補要約に対しては、確率モデル、予測モデル又はその双方を用いて、選択用のランク付けを施しておいてもよい。この後プロセスはステップS230へと進む。
ステップS230においては、プロセッサ610が要約選択回路640を起動させて候補要約のうち最良の1個を選択させ、選択された最良の候補要約及び章句に基づきユーザ関心反映型要約を作成させる。作成されるユーザ関心反映型要約は、その元となっている文書に含まれる章句についてのユーザ関心焦点見出し(ユーザの関心を集中的に表現した見出し)となる。
こうして作成されるユーザ関心反映型要約及びこれに対応する章句は、ユーザアクションに応じて選択的に、ユーザに提示(例えば表示)することができる。例えば、ユーザ関心反映型要約乃至ノートのうちの要約部上をユーザがクリックすると、その要約部に対応する章句部が提示(表示)されるような、提示(表示)形態を採ることができる。この後プロセスはステップS235へと進み、図2に示したステップS135に戻って直ちにステップS140へと進む。
図6に、本実施形態に係るプロセスを、図7に示す外付け型のユーザ関心反映型要約作成マネージャ600を用いて実行した場合に、主としてユーザ関心反映型要約作成マネージャ600により実行されるユーザ関心反映型要約生成手順の一例を示す。このプロセスはS300にて開始された後直ちにステップS305へと進み、要約対象章句が特定される。例えば、プロセッサ610は入出力回路605を起動させ、ユーザ関心反映型検索結果指示子作成システム1000から転送されてくる章句をメモリ615上に取り込ませる。
章句がテキスト情報である場合、その章句は、検索によって特定された文書に含まれる1個又は複数個の多語文から構成されている。ステップS305実行後はプロセスはステップS310へと進み、特定された章句に係る言語特性が判別される(但し本発明の実施に際しステップS310は必須でない)。即ち、プロセッサ610は言語特性判別回路645を起動させてその章句に係る言語の特性を判別させる。
章句に係る言語特性の判別は、例えば、XMLやHTMLにおける使用言語識別タグ、その章句の言語学的解析等、既知の又は今後開発される言語判別方法を用いて実行する。この後プロセスはステップS315へと進む。
ステップS315においてはユーザ関心情報が特定される。例えば、プロセッサ610が入出力回路605を起動させてユーザ関心情報レポジトリ1200やメモリ615からユーザ関心情報を読み込む。特定されるユーザ関心情報には、例えば、ユーザ関心対象概念についての明示的又は非明示的表現が何個か含まれている(但しこれに限られるものではない)。例えば、ダイアログボックスその他の入力要素から入力されるキーワード、という形態で、明示的なユーザ関心情報を取得することもできる。また、WordNet(商標)等のレキシコン(レキシカルデータベース)を用いて一組の概念語を生成してもよい。生成する概念語には、例えば、ユーザの関心を明示的に表す語に係る同義語・類義語、上位語、下位語、用例等が含まれる。入力されるキーワードやこうした関連概念語は、ユーザの関心対象情報を反映している。
また、ユーザの関心を間接的乃至非明示的に示す表現に基づきユーザ関心情報を特定してもよい。例えば、ライブラリやデータレポジトリ内におけるユーザブラウジングパターンに基づく推論の他、ユーザの履修カリキュラム、履修経歴、学歴/職歴、熟練度/専門性、趣味等、そのユーザに関わる各種の情報に基づき、ユーザ関心情報を特定することができる。この後プロセスはステップS320へと進む。
ステップS320においてはプロセッサ610が構文解析文法回路650を起動させて構文解析文法を特定させる。構文解析文法の特定は、判別済の言語特性、対象としている文書(例えばテキスト)のジャンル等、特定されている章句やその章句の出自文書の特性であって解明済のもの又は今後解明されるものに基づき、行う。構文解析文法としては、章句を構文解析して構造化意味表現に変換できるものであれば、既知のものでも今後開発されるものでも、またそうした構文解析文法同士の組合せでも、本実施形態にて使用することができる。例えば、LFG、HPSG、LTAG(lexical tree adjoining grammer)、CCG(combinatory categorical grammer)等やその任意の組合せを使用できる。
例えば、構文解析すべき章句の出自が英字新聞であるなら、「英語」という言語特性及び「新聞」というジャンル特性に基づき、構文解析文法を選択すればよい。また例えば、構文解析すべき章句の出自が英文のバイオエンジニアリング記事であるなら、「英語」という言語特性及び「科学出版物」というジャンル特性に基づき、構文解析文法を選択すればよい。このようなやり方で構文解析文法を選択して適用すれば、各テキスト乃至章句の言語構造を適切に認識することができる。構文解析文法は、予め作成してあった総称的文法(generic grammer)から選んでもよいし、テキスト又はその特定の性質に応じて作成してもよい。この後プロセスはステップS325へと進む。
ステップS325においては、プロセッサ610が生成文法回路660を起動させ、生成文法を特定させる。生成文法としては、その適用により作成される要約が使用言語の文法に適ったものになる文法を選択する。生成文法は構文解析文法と同じ文法であってもよい。例えば、LFG、HPSG、LTAG、CCGのうち又はその任意の組合せ等、既知の又は今後開発される文法であって意味表現内の情報を表す文を生成するのに有用なものを、使用すればよい。また、文とは文法規則に従って構成された有意な構造的表現のことであり、またその要約とは元の文と同種又は類種でその文の意味を表すより小さな構造化意味表現のことであるから、表形式の情報も文の一種である。表形式情報の要約は、例えば、検索語と、ユーザ関心情報の構成要素のうちユーザの関心を意味的に反映した見出しになり得る構成要素と、を含む表形式の予測情報となろう。
生成文法として使用できる文法としては、例えばあるバージョンのLFGがある。即ち、生成文法として使用するLFGが英語等の自然言語の特性を正確にモデリングできる範囲内においては、その生成文法の適用結果は文法的に正しいものになるであろう。LFGのバージョンの中にはこうした文法的に正しい要約文を生成できるものがあるから、本発明の実施に当たってはそうしたバージョンのLFGを使用するとよい。但し、用いる構文解析文法や生成文法が既知の又は今後開発されるどのような文法であっても、本発明を実施する支障にはならない。この後プロセスはステップS330へと進む。
ステップS330においては、各構造化意味表現の構成要素を削除、統合、変更等する何個かの要約変換子が決定される。例えば、メモリ615から従前の要約変換子が読み込まれる。要約変換子の記述には、構造化意味表現変換に使用できる何通りかのリライトルールその他、既知の又は将来開発される方法が使用される。この後プロセスはステップS335へと進む。
ステップS335においては何個かの意味歪曲制限子が決定される(但し本発明の実施に当たりステップS335は必須ではない)。例えば、メモリ615から従前の意味歪曲制限子が読み込まれる。意味歪曲制限子は随意各要約変換子に組み込まれ又はこれに前後して適用されるものであり、意味歪曲制限子を併用することによって、章句に対して要約変換子を適用したときにその章句の意味が歪曲されないようにすること(又は生じた歪曲を事後修正すること)ができる。例えば、“The CEO believes that 4th quarter earnings will improve”(CEOは第4四半期の売り上げが上向くであろうと信じている)という章句を要約して“The 4th quarter earnings will improve”(第4四半期の売り上げは上向くであろう)となったとしたら、その要約の値打ちはしれたものである。なぜなら、元の章句はCEOの信念乃至信条を表していたのであって事実を表していたのではないのに、この要約は事実を表すかのようなものになっていて、要約に伴う意味上の歪曲が生じているからである。要約変換子に組み込んだ形で又は要約変換子に前後して意味歪曲制限子を適用すれば、元々の章句に対して意味的に歪曲された要約は生成されにくくなり、また一旦生成されても事後的に排除されることとなる。意味歪曲制限子を要約変換子と同時に適用しても、先立って適用しても、後で適用しても、本発明の技術的範囲から逸脱することはない。この後プロセスはステップS340へと進む。
ステップS340においては、プロセッサ610が構造化意味表現パック作成回路665を起動させ、特定されている章句に基づき且つ構文解析文法を使用して各構造化意味表現から構造化意味表現パック(packaged meaning structure)を作成させる。構造化意味表現パックの基本構成としては、例えば、XLEにて規定されているf構造化意味表現パックに従い表現する構成を使用する。
特定されている章句がテキスト章句である場合、XLEf構造化意味表現パックを作成するに当たっては、その章句についての言語事実文脈リストを作成する。従って、XLEf構造化意味表現パック内には、自然言語に含まれている曖昧性乃至多義性が、効率的にエンコードされることとなる。言語事実文脈とはCi→Fiなる形態にて言語事実を記述したもののことを指しており(Ci:文脈、Fi:言語事実)、XLEf構造化意味表現パックにおける文脈は、通常、章句又は文の曖昧性を表現するand−or森林(論理積と論理和の組合せによる樹状構造化表現)から取り出される解釈肢の集合として、表される。また、XLEf構造化意味表現パックにおいては、仮にあるf構造化意味表現パックによって表されている章句に複数通りの解釈があり、ある言語事実がそれら複数通りの解釈のうち何個かにより併有されるべきものであるとしても、その言語事実は1回しか現れない。XLEf構造化意味表現パックは、言語事実がこのような形で正規化された構造化意味表現であるため、その構成要素を探して変換を施す上で好都合である。
より詳細には、まず、自然言語には曖昧性乃至多義性があるため1個の章句から複数通りの解釈が生じることがある。f構造化意味表現パックは、それら複数通りの解釈を表現するよう、しかもそのXLEf構造化意味表現パック内にエンコードされている複数通りの解釈のうち何通りかに共通する構成要素がそのXLEf構造化意味表現パック内に複数回現れることがないよう、作成される。一例として、“the duck is ready to eat”という文節には“the duck is hungry”(その家鴨は空腹だ)なる意味(解釈)と“the duck is cooked”(その家鴨は料理済だ)なる意味(解釈)とがあるが、XLEf構造化意味表現パック内では“the duck”(その家鴨)がそれら二通りの解釈によって共通下位構造として共有される。従って、下位構造とされている共通構成要素を複数回操作する必要がないため、f構造化意味表現パック内に含まれている情報を操作するための所要時間は短い。この後プロセスはステップS345へと進む。
ステップS345においては、プロセッサ610がユーザ関心焦点特定回路690を起動させ、構造化意味表現パック内の何個かのユーザ関心焦点要素をユーザ関心情報に基づき特定させる。ユーザ関心焦点要素とは、構造化意味表現パックの構成要素のうち、ユーザ関心情報内の対応する構成要素とマッチ又は類似している構成要素のことである。これを特定するには、例えば、ユーザ関心情報の各構成要素が構造化意味表現パック内の対応する構成要素とマッチするかどうかを調べ、構造化意味表現パックの構成要素のうちマッチしているとの結果が得られた構成要素にマークする、という手段によってユーザ関心焦点要素を探せばよい。マッチしているかどうかは、ユーザ関心情報内に表現されている概念と、構造化意味表現パック内に表現されている概念との間の字句的類似性、概念的類似性、統計的類似性等に基づいて調べる。ユーザ関心焦点要素特定後、プロセスはステップS350へと進む。
ステップS350においては、プロセッサ610が構造化意味表現圧縮体作成回路670を起動させ、要約変換子、意味歪曲制限子及びユーザ関心焦点要素を用いて、構造化意味表現パックから構造化意味表現圧縮体を作成させる。構造化意味表現パックに適用される要約変換子は、例えば、さほど特徴的でない構成要素を削除する、構成要素をより短く又はよりコンパクトな表現に置き換える、構成要素を変更する等といった機能(但しこれらに限られない)を有する変換子である。意味歪曲制限子及びユーザ関心焦点要素を用いるのは、要約変換子に拘束を加えることによって、ユーザ関心焦点要素が優先的に保存されるようにしまた章句の意味歪曲が回避されるようにするためである。例えば、XLEf構造化意味表現パック内にエンコードされている事実を、こうした要約変換子の適用によって変形する際、それら要約変換子は、自分にエンコードされているアクション乃至プロセスに従い、適用先の構造化意味表現パック内の構成要素乃至情報のうちさほど特徴的でないものの生起回数が少なくなるよう、そのパック内の事実に追加、削除、変更等を施す。このような事実変形を通じて得られる構造化意味表現圧縮体は、それぞれ採用され得る解釈を表す複数通りの要約化された構造化意味表現が、効果的にエンコードされたものになる。この後プロセスはステップS355へと進む。
ステップS355においては、プロセッサ610が候補構造化意味表現選択回路675を起動させ、構造化意味表現圧縮体及び統計的、確率的乃至予測的多義性解消モデルに基づき、最も尤もらしい何個かの構造化意味表現圧縮体を候補として選択させる。候補たる構造化意味表現圧縮体を選択するための多義性解消手法としては、例えば、確率的手法、字句意味論的(lexical semantic)手法等、既知の又は今後開発されるあらゆる手法を使用する。例えば、まず、構造化意味表現圧縮体について統計的解析を行うことによって、最も尤もらしい多義性解消モデルを特定乃至作成する。
次いで、予測的多義性解消モデルを用いまたプロパティ関数に基づいて特定を行い、構造化意味表現圧縮体の中から最も尤もらしい構造化意味表現圧縮体を選択する。その際、プロパティ関数としては、例えば、属性、属性の組合せ、属性と値との対、動詞幹共起、下位範疇化フレーム、ルールトレース情報等、構造化意味表現に係る既知の又は今後解明される素性を使用できる。また、使用する予測的多義性解消モデルにはトレーニングを施しておく。例えば、トレーニングデータ
Figure 0004851789
に含まれる個々の文yと、その文yに対応する候補たる構造化意味表現S(y)を定めておく。更に、予測的多義性解消モデルを、所与の文それぞれに係り次の式
Figure 0004851789
により表される構造化意味表現圧縮体の尤度条件L(λ)を用いて、トレーニングする。この式中、fはプロパティ関数であり、y及びsは原文と基準(gold-standard)構造化意味表現圧縮体との対である。こうしたトレーニングが済んでいる予測的多義性解消モデルを、例えばメモリ615から読み出して構造化意味表現圧縮体に適用すれば、候補たる構造化意味表現圧縮体を特定できる。その結果得られる候補は、通常はフルセットの構造化意味表現圧縮体ではなくそのサブセットである。即ち、確率的乃至統計的多義性解消モデルによって決定される確率情報に基づきしきい値を定め、定めたしきい値を基準としてフルセットの構造化意味表現圧縮体から選り出すことによって、得られたサブセットである。こうして最も尤もらしい構造化意味表現圧縮体が候補として選択された後、プロセスはステップS360へと進む。
ステップS360においては、プロセッサ610が要約作成回路680を起動させて候補要約を作成させる。例えば、候補たる最も尤もらしい構造化意味表現圧縮体に対して生成文法を適用することによって、最も形が整っており該当章句の意味を表現させるにふさわしい文を何個か作成し、その章句についての候補要約とする。この後プロセスはステップS365へと進む。ステップS365においては、プロセッサ610が要約選択回路685を起動させ、作成された何個かの候補要約の中から、該当章句についてのユーザ関心反映型要約として使用できるものを選択させる。この後プロセスはステップS370に進んで終了し、ステップS135に戻ってステップS140へと進む。
図8に、本発明に従いその意味についての指示子を作成できる章句の例“Accompanied by an armed guard, Igor Domaradsky carried a dish with a culture of genetically altered plague through the gates of the ancient fortress like a rare jewel”を示す(但し作図の都合で末尾数語が欠けている)。この章句には何個かの修飾語句が含まれている。例えば、この文中のある部分では、どのようなやり方で“a dish of plague”(ペスト菌/疫病菌の培養皿)が“the gates of the fortress”(城門)を通って運搬されたかが詳細に説明されているが、このような事柄がユーザの関心対象外である場合(ユーザの関心を表す情報からそう判断される場合)には、本発明ではこの章句について例えば“Igor Domaradsky carried a dish with a culture of plague through the gates”(イゴール・ドマラドスキが門を通ってペスト菌の培養皿を運んだ/培養されたペスト菌に感染しているイゴール・ドマラドスキが門を通って皿を運んだ)といった要約が作成され、作成された要約と元々の章句とに基づきユーザ関心反映型検索結果指示子が作成される。そのため、作成されるユーザ関心反映型検索結果指示子の要約部には、どのようにして培養皿が運搬されたかに関する記述が含まれないこととなるが、元々の章句の意味のうちユーザの関心を集める部分が見出し化されているので、当該要約部は好適なものであるといえる。
図9に、本発明の一実施形態においてユーザ関心情報が格納されるデータ構造の第1の例1600を示す。このユーザ関心情報格納用データ構造1600は複数の行から構成されていて、各行にはユーザ関心情報構成要素が格納されている。このユーザ関心情報構成要素には、例えば論理和演算子、論理積演算子、拡張演算子、否定演算子等、既知の又は今後開発される概念記法による論理演算子を用いて、拡張、圧縮等が施されている(但しこれは必須ではない)。ここでいう拡張は、シソーラスやオントロジ、例えばWordNet等を利用することによって実現できる。
まず、第1行に記載されているエントリ+{Igor Domaradsky|Igor}は、“Igor Domaradsky”のフルネームが“Igor Domaradsky”、ファーストネームが“Igor”であり、どちらで表現されていてもユーザ関心対象であることに変わりがないことを、表している。
第2行に記載されているエントリ+{disease2}は、二番目のユーザ関心情報構成要素が概念的に“disease”に関するものであることを、表している。このエントリ中のシンボル“”はWordNetにおいて使用されるものであり、その語句の概念範囲をWordNet上にある同義語・類義語、上位語、下位語等へのリンクまで拡張する、という宣言である。そのパラメータが“2”であるから、このエントリによって、WordNetレキシコン内で“disease”から2リンクの範囲内が、概念的に取り込まれることになる。例えば、“viral infection”(ウイルス性疾患)や“bacterial infection”(細菌性感染症)は“disease”(病気)の下位語であるので、“disease”から1リンクの範囲内にある。また、具体的な病名、例えば“Ebola”(エボラ出血熱)、“plague”(ペスト)、“pneumonia”(肺炎)等は、“disease”から2リンクの範囲内に捕らえられる。更に、エントリ冒頭に付されている文字“+”は、そのエントリに記載されている語をユーザ関心対象概念に含めることを、表している。もしエントリ冒頭に付されているのが文字“-”ならば、そのエントリに記載されている語は概念的にユーザ関心対象外とされる。
第3行に記載されているエントリ+{bio-weapons}は、三番目のユーザ関心情報構成要素が概念的に“bio-weapons”(生物兵器)なる語に関するものであること、またこの要素により表される概念内にWordNetレキシコン又はオントロジ内で“bio-weapons”から1リンクの範囲内にある同義語・類義語、上位語、下位語等の集合が包含されること等を、表している。なお“”にパラメータが添えられていないのでリンク数はデフォルト値=1となる。なお、自明なことであろうが、SUMO(Suggested Upper Merged Vocabulary)、Cyc(商標)等、各種のレキシコン、階層的オントロジ等を用いることもできる。
図10に、本発明の一実施形態における構造化意味表現パックの第1の例1700を示す。例示されている構造化意味表現パック1700は図8に示した文をエンコードし、XLEf構造化意味表現パックに変換したものである。図8に示した文には二通りの意味(解釈)があるため、この文をエンコードした結果である構造化意味表現パック1700内にも、2個の解釈肢1710(C1)及び1720(C2)が生まれている。即ち、まずand−or森林510により記述されている第1の解釈肢1710(C1)は、図示の通り、前置詞句“with a culture of genetically altered plague”(遺伝子改変され培養されたペスト菌が載った)がイゴールによって運ばれる“dish”(皿)を修飾している、という解釈を表す解釈肢である。これに対して、構成要素の複数回出現をなくすためand−or森林510を参照する参照式C2[510]で表現されている第2の解釈肢1720(C2)は、“with a culture of genetically altered plague”(遺伝子改変され培養されたペスト菌に感染した)が皿を運ぶ“Igor”(イゴール)を修飾している、という解釈を表す解釈肢である。
この図においては、構造化意味表現パック1700の構成要素のうち、ユーザから与えられた検索語である“Igor Domaradsky”及び“plague”即ちそのユーザの最大関心対象を表す情報には、優先的に保持すべき構成要素であることを示す下線が付されている。また、この段階ではユーザ関心情報構成要素がマークされていないが、それらは後のステップにおいてユーザ関心焦点要素従って優先保持対象としてマークされる。例えば、仮に“fortress”等の語がユーザ関心情報の構成要素であったら、そうした語は後にマークされることとなろう。この図で下線を付した構成要素や、後にマークされる構成要素は、それを抑制乃至削除してしまうとその章句乃至要約がユーザにとり不適なものとなってしまう構成要素である。逆に言えば、下線乃至マーク対象外の構成要素を抑制乃至削除しても、そのユーザにとっての適切性に悪影響を及ぼすこと無しに、章句を要約できる。
図11に、本発明の一実施形態における構造化意味表現圧縮体パックの第1の例1800を示す。例示されている構造化意味表現圧縮体パック1800は、構造化意味表現パック1700として図10に例示したXLEf構造化意味表現パックの全体に対し、要約変換子を適用した場合に得られるもの(例えばユーザ関心情報に基づきユーザ関心焦点要素をマークして要約変換子を適用した場合に得られるもの)である。但し、この図では、議論の簡明化のため、解釈肢1710(C1)に対応する部分のみを示してある。ユーザ関心情報構成要素と同一又は類似の構成要素には、この図ではマークとして下線を付して表してある。具体的には、ユーザ関心情報(図9参照)の構成要素と字句的にマッチしている構成要素“Igor Domaradsky”及び“plague”に、下線を付してある。即ち、構造化意味表現圧縮体パック1800の構成要素のうち図中で下線が付されている構成要素は、構造化意味表現パック1700の構成要素のうち対応するユーザ関心情報の構成要素と字句的にマッチしていたものであり、従ってユーザ関心焦点要素である。なお、ユーザ関心情報と構造化意味表現パック1700との構成要素間マッチ判別手法としては、本発明の技術的範囲を削ぐこと無しに、これ以外のマッチ判別手法も採用でき、またそれにより“マッチ”と判定される範囲を広げることもできる。
構造化意味表現パック1700に対し要約変換子を適用することによって得られる構造化意味表現圧縮体パック1800は、元々の章句の意味乃至解釈を、ユーザの関心対象に的を絞りよりコンパクトなフォーマットに詰め込んだものであり、従って元々の章句の意味合いを端的に表しているものである。仮に、ユーザが以前に“ancient”や“fortress”に対して興味関心を示したことがあったのなら、ユーザ関心情報にはそれらの語が含まれることとなり、そのユーザ関心情報に基づき要約変換子が適用されることとなるため、その結果作成される構造化意味表現圧縮体パックは、図示されている構造化意味表現圧縮体パック1800とは異なり、“ancient”や“fortress”が出現するものになろう(そうなる確率が高いであろう)。また、これは必須ではないが、意味歪曲制限子を適用すれば、元々の章句に対して意味的に歪曲された構造化意味表現圧縮体パックが生じる確率が低くなる。そのようにして作成される構造化意味表現圧縮体パックは、元々の章句に含蓄されている意味合いを受け継ぎつつ、その章句から最尤導出された構造化意味表現圧縮体パックであるから、それに基づき作成される要約は、元々の章句に対し意味的に歪曲されたものにはならない。
また、図示されている構造化意味表現圧縮体パック1800内には、動詞“carry”(運ぶ)の目的語についての解釈肢として、2個の解釈肢1810(D1)及び1820(D2)が含まれている。そのうち解釈肢1810(D1)が“a dish with a culture of plague”が運ばれる、という解釈を示すものであるのに対して、解釈肢1820(D2)は“with”の目的語563を参照する形式D2[563]で表されており、従って“a culture of plague”が運ばれる、という解釈を示している。即ち、ある種の要約変換子の適用によって「Xの容器」形式の表現が「X」そのものと認識され、この認識に基づき「容器」が削除されて「Xの容器」形式の表現が「X」形式の表現(図中の例では解釈肢1820(D2))へと圧縮されている。これは、大抵は容器よりその中身の方が重要であり容器自体はさほど重要でない、という事情に鑑みた要約化である。
図12に、本発明の一実施形態における構造化意味表現圧縮体パックの第2の例1900を示す。この図に示す構造化意味表現圧縮体パック1900は、図11に示した構造化意味表現圧縮体パック1800でいうと解釈肢1810(D1)に相当しており、それでいてよりコンパクトな形態に圧縮されているものである。即ち、要約変換子適用により構成要素が削除されスペースになった部分を削除する、という手段を使用することにより、更にコンパクトな圧縮体を得たものである。何れの形態を採るにせよ、構造化意味表現圧縮体パックにおいては、ユーザ関心情報構成要素と概念的に似通っている構成要素が保持乃至優先されることとなる。即ち、構造化意味表現圧縮体パックにおいては、さほど特徴的でない情報が削除される一方、ユーザ関心情報が保存されることとなる。
例えば、例示した構造化意味表現圧縮体パック1800及び1900の何れにおいても、皿がどのようにして門から搬入されたか、といった事項についての情報は削除されている。これは、ユーザが関心ありと明示している“Igor Domaradsky”及び“plague”とあまり関係がないからである。実際、図示されている何れの例においても、要約候補“Igor Domaradsky carried a dish with a culture of plague through the gate”を導出できる構造化意味表現圧縮体パックが得られている。この候補要約においては、元々の章句の意味合いのうち関心を惹く部分が保持されており、元々の28語の章句からユーザの関心を惹くであろう13語へと圧縮・要約化されている。
構造化意味表現(圧縮体)パックに含まれるユーザ関心焦点要素の識別は、例えば、ユーザ関心情報と構造化意味表現(圧縮体)パックとの間の構成要素間マッチ判別、例えば字句的等価性判別や概念マッチ判別により行うことができる。例えば、ユーザ関心情報の構成要素の一つが“container”の後にシンボル“2”を付したものである場合、WordNetレキシコン内内で単語“container”から2リンクの範囲内にある同義語・類義語、上位語、下位語等が、マッチと判別される対象に加えられ(“+”の場合)又は除かれる(“-”の場合:図13参照)。また、ユーザ関心情報により表されている概念を特定する手段としては、他種レキシコン、例えばSUMOやCyc等も使用でき、また一種類のレキシコンを単独で使用してもよいが複数種類のレキシコンを組み合わせて使用してもよい。更に、構成要素間の統計的類似性に基づきマッチ度判別を行ってもよい。
図13に、本発明の一実施形態におけるユーザ関心情報格納用データ構造の第2の例2000を示す。このユーザ関心情報格納用データ構造2000の第1行に記載されているエントリ+{fortress3}は、単語“fortress”(城/砦)の概念的範囲をこの単語“fortress”自体に基づきどのように規定するかを、示すエントリである。この例では、WordNetレキシコン内で単語“fortress”から3リンクの範囲内にある同義語・類義語、上位語、下位語等を単語“fortress”の概念的範囲に含める旨、規定されている。自明なことであろうが、本発明の実施にとりWordNetレキシコン使用は必須なものではない。即ち、ユーザ関心情報の記述に当たっては、既知の又は今後開発されるどのようなレキシコン、オントロジ、システム等でも、概念を表現可能なものであれば本発明の技術的範囲を逸脱すること無しに本発明の実施に利用できるし、またそうしたレキシコン、オントロジ、システム等を、単独での利用に限らず、互いに組み合わせて利用することもできる。
第2行に記載されているエントリ+{archaeology}は、ユーザの関心対象の一つが“archaeology”(考古学)であること、またWordNetレキシコン内で単語“archaeology”から1リンク(デフォルトのリンク範囲)の範囲内にある同義語・類義語、上位語、下位語等を全て単語“archaeology”の概念的範囲に含めることを、表している。
第3行に記載されているエントリ+{bronze age}は、ユーザの関心対象の一つが“bronze age”(青銅器時代)であること、またWordNetレキシコン内で単語“bronze age”から1リンク(デフォルトのリンク範囲)の範囲内にある同義語・類義語、上位語、下位語等を全て単語“archaeology”の概念的範囲に含めることを、表している。
第4行に記載されているエントリ+{c:\user\abc\file_history}は、ユーザの関心対象を示す更なる概念語句を、ファイル又はフォルダ“c:\user\abc\file_history”にアクセスして読み込むべきことを、表している(なお、図中の逆スラッシュを明細書中では円記号で表してある。以下同様)。このファイル又はフォルダ“c:\user\abc\file_history”には、例えば、ユーザの関心対象の一つが歴史であることや、歴史の分野におけるユーザの関心対象がどのようなものであるかが、ユーザ関心情報の一部として記述されている。
第5行に記載されているエントリ+{c:\user\abc\file_project1}は、ユーザの関心対象を示す更なる概念語句を、ファイル又はフォルダ“c:\user\abc\file_project1”にアクセスして読み込むべきことを、表している。このファイル又はフォルダ“c:\user\abc\file_project1”には、例えば、ユーザの関心対象の一つがプロジェクト1であることや、プロジェクト1におけるユーザの関心対象がどのようなものであるかが、ユーザ関心情報の一部として記述されている。プロジェクト1は例えば共同プロジェクトであり、この共同プロジェクトに係るファイル内に記述されている様々な概念語句については、例えば、その共同プロジェクトのチームメンバーによる学習的変更その他の調整が施される。このように概念語句を単一のファイル又はフォルダ内にまとめて保存することによって、チームメンバーが他の人間と知識を共有すること、また調整された知識が調整直後から共有されるようにすることができる。
第6行に記載されているエントリ-{container2}は、符号“-”が付されてたエントリであり、従ってこの単語“container”の概念的範囲がユーザの関心対象外であることを表している。即ち、ユーザ関心対象概念からこの単語“container”及びその関連範囲、具体的には単語“container”から2リンクの範囲内にある同義語・類義語、上位語、下位語等がユーザ関心対象から除外され、又はその重みが低減される。例えば、図10に示した構造化意味表現パック1700に対し、このエントリを含むユーザ関心情報を適用した場合、図11に示した構造化意味表現圧縮体パック1800と違い、解釈肢1810(D1)が抑制され解釈肢1820(D2)が残った構造化意味表現圧縮体パックが、生成されるであろう。
第7行に記載されているエントリ+{Named_Entity.Person}は、ユーザが関心を持っている人タイプのネームドエンティティを表している。ネームドエンティティの識別は、各種の既知の又は今後開発されるネームドエンティティリコグナイザにより行える。
ユーザ関心情報格納用データ構造は、各行のエントリの内容が互いに暗黙的論理和操作により連結される構造とするとよいが、本発明の実施に当たり他種の論理操作、論理結合にて暗黙的又は明示的にエントリ内容同士を連結することもできるし、またそれによって本発明の技術的範囲から逸脱することもない。
本発明を実施するに当たり、作成した要約をユーザに提示乃至表示する際には、ユーザ関心情報を何組かに分け、それぞれ別々のタグ、別の表示特性等によって提示乃至表示するとよい。例えば、ファイル“file_project1”の構成要素に係るユーザ関心焦点要素を表示する際には、タグ“project1”を付する、全体として赤い表示特性で表示する等とする一方、ファイル“file_history”の構成要素に係るユーザ関心焦点要素を表示する際にはタグ“history”を付する、全体として黄色い表示特性で表示する、等といった具合である。
また、ユーザ関心情報構成要素と同一の又は類似度が高い構成要素であるユーザ関心焦点要素は強調文字にて提示乃至表示し、それよりも類似度が低い構成要素は斜字にて提示乃至表示する、というように、予め定めておいた別々の人間可感知表示特性を使用して表示するとよい。このようにしてあれば、作成された要約乃至テキストの関心対象概念に対する関連度、密接度を、ユーザが素早く察知することができる。そのために利用できる表示特性としては、強調、斜字等の文字特性の他、色、フォント、音響、触感等、様々な既知の又は今後開発される人間可感知表示特性を掲げることができる(即ちこれらの例に限られるものではない)。
図14に、本発明の一実施形態における意味歪曲制限子格納用データ構造の例2100を示す。この意味歪曲制限子格納用データ構造2100はパターン部2110及びアクション部2120を有している。意味歪曲制限子の実体たる制限条件はパターン部2110に記述されており、ある行のパターン部2110に記述されている制限条件が成立すると、同じ行のアクション部2120に記載されている被制限動作即ち要約変換子(の一部)が実行される。
まず、意味歪曲制限子格納用データ構造2100第1行のパターン部2110には、制限条件として“-DOWNWARD_MONOTONIC(P)”が記載されている。冒頭の文字“-”は否定を表しているから、この制限条件は述語“P”が単調下降性(downward monotonic)でないときに成立する。なお、テキスト述語が単調下降という特性を有しているかどうかは、例えば、XLEにて提供されている関数乃至機能、オントロジーやレキシコン上でのルックアップ動作等、既知の又は今後開発される単調下降性判別手法により、判別することができる。
意味歪曲制限子格納用データ構造2100第1行のアクション部2120には、被制限動作としてリライトルール“CONDENSE_MODIFIERS(P)”が記述されている。このリライトルールは修飾語句省略というリライトルールであり、このリライトルールが実行されると章句内修飾語句が省略される。但し、このリライトルールが実行されるのは、同じ行のパターン部2110に記述されている制限条件が満たされたとき、即ち述語“P”が単調下降性でないときだけである。即ち、このリライトルールによる章句内修飾語句省略が実行されるのは、その省略によってその章句が意味的に変化したりしない場合だけである。
例えば、あるレキシコンにおいて“prevent”は単調下降性であるが“cause”はそうでないという具合に情報がエンコードされているとする。また、与えられた文言が“the president prevented a long strike”即ち“prevent”を含む文言であるとする。“prevent”を含んでいるからこの文言は単調下降性であり、従って第1行のパターン部2110に記述されている制限条件は満たされず、同じ行のアクション部2120に記述されているリライトルールによる文内修飾語句省略は実行されない。もし、“the president prevented a long strike”(社長はストライキの長期化を防いだ)に対して修飾語句省略が実行されていたら修飾語句“long”の省略によって“the president prevented a strike”(社長はストライキを防いだ)となってしまい、要約化に伴う意味歪曲が生じてしまうところであるが、上述のような制限条件を課してあるためこの種の意味歪曲型要約は生じにくい。それでいて、与えられた文言が“the president caused a long strike”(社長が長期ストライキを招いた)である場合は、正しい要約“the president caused a strike”(社長がストライキを招いた)が高い確率で作成されることとなる。
第2行のパターン部2110に記述されている制限条件は“PASSIVE(P),SUBJ(P,S),BY-OBJ(P,O)”である。従って、同じ行のアクション部2120に記述されている被制限動作が実行されるのは、与えられている述語“P”が受動態で(PASSIVE(P)の条件)、この述語“P”が主語“S”を有していて(SUBJ(P,S)の条件)、且つこの述語“P”が目的語“O”を伴うBY前置詞句を有している(BY-OBJ(P,O)の条件)場合である。
同じ行のアクション部2120に記述されてい被る制限動作は“SUBJ(P,O),OBJ(P,S)”、即ち同じ行のパターン部2110に係る制限条件が成立した場合に受動態変形を取り除いて文を能動化する動作であり、この動作の実行によって、それまでBY前置詞句の目的語“O”であった語が述語“P”の主語になり(SUBJ(P,O)の動作)、元々述語“P”の主語“S”であった語が目的語になる(OBJ(P,S)の動作)。従って、与えられた文が例えば“John was seen by Bill”であるなら“Bill saw John”という要約が得られる。即ち、この要約変換子の適用の効果である語句“was seen”から語句“saw”への変形及び文内での主語目的語の入れ替えは、対応する意味歪曲制限子による条件制限の下に発動されているから、その実行に伴い章句意味が歪曲されることはない。
第3行のパターン部2110に記述されている制限条件“FACTIVE(P,C)”は、補語“C”を有する述語“P”が叙述述語(factive predicate)である場合、即ちその述語“P”の補語“C”が事実であると認め得るような述語“P”が使用されている場合に成立する。この制限条件が成立すると、同じ行のアクション部2120に記述されている被制限動作“EXTRACT-COMPLEMENT(P,C)”が起動されて適用され、その述語“P”の補語“C”が抜粋される。なお、叙述述語に関しては、非特許文献7に記載されているので参照されたい。
また、第4行のパターン部2110には制限条件“POLARITY-PRESERVE(P,C)”が、同じ行のアクション部2120には被制限動作“EXTRACT-COMPLEMENT(P,C)”が、それぞれ記述されている。従って、対象となる語(述語)が極性保存語(polarity preserving word)例えば“manage”である場合にリライトルール“EXTRACT-COMPLEMENT(P,C)”が実行され、補語が抜粋される。
そして、第N行のパターン部2110には制限条件“POLARITY-REVERSE(P,C)”が、同じ行のアクション部2120には被制限動作“EXTRACT-COMPLEMENT(P,C),NEGATE(C)”が、それぞれ記述されている。従って、対象となる語(述語)が極性反転語(polarity reversing word)例えば“fail”である場合にリライトルール“EXTRACT-COMPLEMENT(P,C),NEGATE(C)”が実行され、補語の抜粋及び否定が実行される。
例えば、“The administration failed to track down the terrorists”(行政当局はテロリストの逮捕に失敗した)なる文が与えられたとする。この文中の述語“failed”は極性反転語、即ちその補語の意味を反転する語である。そのため、意味歪曲制限子格納用データ構造2100に格納されている意味歪曲制限子が適用されると、その第N行の効果によって、補語“to track down the terrorists”の抜粋即ちfailedの削除と、否定即ち“not”の補充とが実行され、“The administration did not track down the terrorists”(行政当局はテロリストを逮捕しなかった)へとリライトされる。このように、述語が極性反転語である場合に要約に元々の意味を継承させるには、補語抜粋時に“not”を補充する必要がある。これに対して、与えられた文が“The administration managed to track down the terrorists”(行政当局はテロリストを上首尾に逮捕した)である場合、この文中の述語“managed”は極性保存語であってその補語の意味を反転させていないから、補語抜粋の際には第4行に規定されている通り“not”を補充せず、“The administration tracked down the terrorists”(行政当局はテロリストを逮捕した)とすることで、元々の意味が継承された許容できる要約を得ることができる。
図15に、本発明の一実施形態における文書内章句格納用データ構造の例2200を示す。この文書内章句格納用データ構造2200はID部2210及び章句部2220を有している。
ID部2210には、ユーザ関心反映型検索結果指示子作成システム1000向けに文書を識別する情報、例えばリンク、URL(uniform resource locator)等のような文書アドレス指定機構による情報が、格納される。
章句部2220には、同じ行のID部即ち文書識別子2210により指定されている文書内章句、例えば検索結果として示された文書内に含まれる文のうち検索語を含む文乃至文章が、文書内関連章句として格納される。ID部2210及び章句部2220にセットされた情報は保存される。
図16に従来型検索結果表2300を示す。この表に概要化して示した検索結果2310は、図15に例示した文書内章句を対象とし“Igor Domaradsky”及び“plague”を検索語として従来型の検索を実行した場合に提示される検索結果である。この検索結果2310においては、抜粋に伴い省略された部分が指示子“...”によって示されている。このように単なる抜粋を行うのでは、例えば第1行にある通り、検索語“Igor Domaradsky”及び“plague”を含んでいるとはいえ文としては成り立っていない章句になり、そのため容易に読み解くことができなくなる。また、この検索結果2310の第N行では“Soviet Bioweapons”が省略されてしまっているので、生物兵器(bioweapon)に関心を持つユーザにはそぐわない。このように、単なる切り出しにより作成される検索結果概要2310では、ユーザの関心対象例えば生物兵器に関する情報が入るよう元々の章句の意味を表す見出し、即ちユーザ関心焦点見出しを作成することはできない。
図17に、本発明の一実施形態におけるユーザ関心反映型検索結果指示子格納用データ構造の例2400を示す。このユーザ関心反映型検索結果指示子格納用データ構造2400はID部2410及び要約部2420を有している。
ID部2410には、ユーザ関心反映型検索結果指示子作成システム1000内文書識別子、例えばURL等既知の又は今後開発される何れかの形式を有し本システム1000における文書識別に有用なアドレス情報が、格納されている。
要約部2420には、元々の章句に係るユーザ関心反映型要約が格納されている。要約部2420においては、元々の章句のうちユーザが関心を持っている概念乃至それを表す語が優先的に保持されている。例えば、検索語及びユーザ関心情報は優先度ユニオンを構成しており、要約作成時には、この優先度ユニオンに含まれている構成要素に応じて、元々の章句の構成要素のうちどれを保持すべきかが決められる。その結果として得られる要約は、元々の章句の意味乃至解釈であって意味的にユーザの関心を惹く情報を、見出しとして含んだ要約になる。
図18に、本発明の一実施形態におけるユーザ関心反映型検索結果指示子の第1画面2500を示す。この画面2500に表示されているユーザ関心反映型検索結果指示子は題名部2510、要約部2520及びリンク部2530を有している(但し題名部2510及びリンク部2530は必須ではない)。
随意設けられる題名部2510には文書の題名が含まれる。文書の題名は、例えばその文書内に含まれるタグやラベル(HTMLやXMLのもの)に基づき決定すればよい。題名部2510は例えばプログラムによって発生させてもよい。
要約部2520にはユーザ関心反映型要約、即ち元々の文書内章句に含まれていた意味のうちユーザの関心を惹く見出しとなる情報が含まれる。従って、例えば、検索語を含まない文言“was researching the Soviet Bioweapons program”(図15の第N行を参照)も、ユーザが生物兵器に関心を示している場合(図9参照)は、要約部2520内の要約に含まれることとなり得る。
図19に、本発明の一実施形態におけるユーザ関心反映型検索結果指示子の第2画面2600を示す。この画面2600に表示されているユーザ関心反映型検索結果指示子は題名部2610、展開章句部2620及びリンク部2630を有している(但し題名部2610及びリンク部2630は必須ではない)。また、検索語2640及び2641は強調文字で示されている。
随意設けられる題名部2610の中身は、展開章句部2620の題名として抜粋又はプログラム生成された文言“Breeding the Plague”を含んでいる。展開章句部2620の中身は文書から選り出された章句である。随意設けられるリンク部2630の中身は、その文書へのリンク情報である“www.themoscotimes.com/stories/2004/10/22/110.html”となっている。
展開章句部2620は、例えば、図18に示した指示子表示画面2500上の要約部2520上にポインティングデバイスのカーソルを合わせることによって表示される。それによって展開章句部2620に章句として表示されるのは、要約部2520に表示されていた要約を作成する元になった章句であり、画面2500に示されていた指示子を含んでおり、また検索結果の意味をその指示子より文脈が整った形で表す見出しとなっている。また、これを表示させる際に使用できるポインティングデバイスとしては、これらに限られるものではないが、マウス、視線追跡デバイス、タッチスクリーン等がある。指示子構成要素とユーザ関心情報構成要素との類似性がどの程度かを示すには、例えば、フォント種類、フォントサイズ、色、斜字等の表示属性を利用して表示分けを行えばよい。
例えば、指示子構成要素乃至語のうちユーザ関心情報とマッチしているもののフォントサイズを、類似度に応じて調整、変更するようにしてもよい。WordNetレキシコン内でその構成要素乃至語から1リンク離れる毎に、フォントサイズを1ポイント変える、といった具合である。また、これは自明なことであろうが、リンク情報、要約部その他関連する章句を含む検索結果指示子を、ユーザ関心反映型ノート(特願2005−337961号参照)としてそのユーザのノートファイル内に差し挟んでもよい。
図20に、従来型検索結果の例として、出生者数、幼児死者数、婚姻者数及び離婚者数を年単位でまとめた表構造2700による検索結果を示す。図中、2710は見出し列、2720〜2740は100列ある情報列のうちの4列である(図示の簡略化のため4列だけを描いてあるが実際には100列表示されている)。この検索結果は、検索語として“marriage”(結婚)を与えたときに、検索システム乃至サービスがその検索語に基づき作成し検索結果として返してきた情報であり、4行×100列の表構造2700になっているため、行数乃至列数が多すぎて、ユーザがその表構造2700から自分の仕事に有用な情報を見つけるのが難しくなっている。
図21に、本発明の一実施形態におけるユーザ関心反映型表形式検索結果指示子の例2800を示す。図中、2810は見出し列、2820及び2830は情報列である。この図に示されているユーザ関心反映型表形式検索結果指示子2800は、表形式のユーザ関心反映型指示子であって、しかもその構造は2行×2列である。即ち、先の表構造2700における4行×100列という大きな表に比べ、行数及び列数が少なくなっている。これは、元々の表構造2700を文法的に解釈する要約変換子を適用した結果である。即ち、ユーザ関心反映型検索結果指示子作成システム1000においては、検索語である“marriage”と、先に関心が示された情報であるユーザ関心情報構成要素例えば“1950”、“1960”及び“birth”(出生)とに基づき、ユーザ関心反映型表形式検索結果指示子2800を作成しているため、表形式構造化意味表現に含まれる意味乃至解釈のうちユーザの関心を惹くものを見出しとして示すユーザ関心反映型検索結果指示子が作成されることとなる。
図22に、本発明の一実施形態におけるユーザ関心反映型画像形式検索結果指示子の例2920を示す。図中の画像2910は検索によって発見された文書群中のある文書について章句として選択された画像であり、この画像形式章句2910におけるユーザ関心対象を示しているのがユーザ関心反映型画像形式検索結果指示子2920である。より詳細には、このユーザ関心反映型画像形式検索結果指示子2920は、検索語“house”(家)による検索を行って画像を何個か探しだし、そのうち1個に対してこの検索語とユーザ関心情報構成要素“pond”(池)とに基づき画像用要約変換子を適用し、それによって検索語及びユーザ関心情報構成要素とマッチしているとされた章句内構成要素(この場合画像の一部)を用いて、形成されたものである。なお、画像用要約変換子は、周知の技術を様々に利用すれば、実現することができる。こうして得られるユーザ関心反映型画像形式検索結果指示子2920は、その画像の意味合いを示しユーザの関心を反映した見出しとなる。ユーザに対しては、この構成要素を含む圧縮画像、小サイズ画像乃至アイコンを提示乃至表示する。また、マッチしているとされた構成要素について説明するテキストを使用して、ユーザ関心反映型画像対象検索結果指示子を作成してもよい。
本発明の実施に際しては、ユーザ関心反映型検索結果指示子作成システム1000を構成する概略説明済の回路100〜800を、汎用コンピュータに適宜プログラミングすることにより、当該コンピュータの一部として実現することができる。また、先に概略説明したユーザ関心反映型検索結果指示子作成システム1000乃至その構成要素100〜800を、他と独立した物理的実体を有するハードウェア回路、例えばASIC(application specific integrated circuit)、FPGA(field programmable gate array)、PLD(programmable logic device)、PLA(programmable logic array)、PAL(programmable array logic)によって実現することもできるし、ディスクリート論理素子又はディスクリート回路部品から組み上げることもできる。先に概略説明したユーザ関心反映型検索結果指示子作成システム1000乃至その構成要素100〜800がどのような回路形態で実現されるかは、設計的な事項であると共に本件技術分野における習熟者(いわゆる当業者)にとり自明且つ予測可能な事項であると言えよう。また、本発明の実施に際し、ユーザ関心反映型検索結果指示子作成システム1000を、パーソナルコンピュータ、ディジタルジュークボックス、PDA(personal digital assistant)等のデバイス内に、組み込むこともできる。更に、ユーザ関心反映型検索結果指示子作成システム1000を、ローカル又はデスクトップファイルシステムと併用することもできるし、また通信利用型情報レポジトリと併用することもできる。何れにしても、本発明の技術的範囲乃至神髄から逸脱することはない。
ユーザ関心反映型検索結果指示子作成システム1000乃至その構成要素は、ソフトウェアルーチン、マネージャ乃至オブジェクトといった形態にて実行・実施することができる。その実行環境は例えばプログラミングが施された汎用コンピュータ上、専用コンピュータ上、マイクロプロセッサ上等でとする。ユーザ関心反映型検索結果指示子作成システム1000乃至その構成要素は、何個かのルーチンをサーバ上のリソース等として通信ネットワーク上に組み込むことによって、実行・実施することもできる。ユーザ関心反映型検索結果指示子作成システム1000乃至その構成要素は、また、それ自体をソフトウェアシステム、ハードウェアシステム、又はソフトウェア及びハードウェアからなるシステム内(例えばウェブサーバやクライアントデバイスを構成するハードウェア/ソフトウェアシステム内)に物理的に組み込んだ形で、実行・実施することもできる。
図3、図5又は図7に示されているメモリ300及び615並びにユーザ関心情報レポジトリ630は、書換可能メモリ、書換不能メモリ、揮発性メモリ、不揮発性メモリ、固定メモリ等を適宜組み合わせる等して実現することができる。
図1、図3、図5及び図7に示されている通信リンク99は、ユーザ関心反映型検索結果指示子作成システム1000又はマネージャ等に対して他の通信デバイスを接続できるデバイス乃至システムである限り、或いはデバイス間を接続して通信を行わしむる接続システム乃至構造物である限り、既知の又は将来開発されるどのようなものでもよい。
以上、本発明について先に概略説明した特定の実施形態に基づき説明を行った。しかしながら、いわゆる当業者にとっては明らかな通り、この実施形態に対しては、本発明の技術的範囲を逸脱することなく、様々な置換、変形乃至修正を施すことができる。
本発明の一実施形態に係るユーザ関心反映型検索結果指示子作成システムの実施環境を示す図である。 本発明の一実施形態に係るユーザ関心反映型検索結果指示子作成方法を示すフローチャートである。 本発明の一実施形態に係るユーザ関心反映型検索結果指示子作成システムの細部を示す図である。 本発明の一実施形態におけるユーザ関心反映型要約生成方法の第1の例を示すフローチャートである。 本発明の一実施形態におけるユーザ関心反映型要約作成マネージャの第1の例を示す拡大図である。 本発明の一実施形態におけるユーザ関心反映型要約生成方法の第2の例を示すフローチャートである。 本発明の一実施形態におけるユーザ関心反映型要約作成マネージャの第2の例を示す拡大図である。 本発明に従いその意味についての指示子を作成できる章句の例を示す図である。 本発明の一実施形態におけるユーザ関心情報格納用データ構造の第1の例を示す図である。 本発明の一実施形態における構造化意味表現パックの第1の例を示す図である。 本発明の一実施形態における構造化意味表現圧縮体パックの第1の例を示す図である。 本発明の一実施形態における構造化意味表現圧縮体パックの第2の例を示す図である。 本発明の一実施形態におけるユーザ関心情報格納用データ構造の第2の例を示す図である。 本発明の一実施形態における意味歪曲制限子格納用データ構造の例を示す図である。 本発明の一実施形態における文書内章句格納用データ構造の例を示す図である。 従来型検索結果表を示す図である。 本発明の一実施形態におけるユーザ関心反映型検索結果指示子格納用データ構造の例を示す図である。 本発明の一実施形態におけるユーザ関心反映型検索結果指示子の第1画面を示す図である。 本発明の一実施形態におけるユーザ関心反映型検索結果指示子の第2画面を示す図である。 表構造を示す図である。 本発明の一実施形態におけるユーザ関心反映型表形式検索結果指示子の例を示す図である。 本発明の一実施形態におけるユーザ関心反映型画像形式検索結果指示子の例を示す図である。
符号の説明
600 ユーザ関心反映型要約作成マネージャ、1000 ユーザ関心反映型検索結果指示子作成システム、1100,1101 テキスト文書、1200 ユーザ関心情報レポジトリ、1400 インターネット接続機能付スマートホン、1500 スタンドアロン読取装置、1600,2000 ユーザ関心情報格納用データ構造、1700 構造化意味表現パック、1800,1900 構造化意味表現圧縮体パック、2100 意味歪曲制限子格納用データ構造、2200 文書内章句格納用データ構造、2220,2620,2910 章句(部)、2400 ユーザ関心反映型検索結果指示子格納用データ構造、2420,2520 要約部、2500,2600,2800,2920 ユーザ関心反映型検索結果指示子、2640,2641 検索語。

Claims (8)

  1. ユーザ関心反映型検索結果指示子作成システムに含まれるコンピュータが、
    ユーザにより入力された検索語を受け取るステップと
    ユーザが関心を抱いている概念を指し示す情報であるユーザ関心情報を記憶する記憶手段から読み出すことで、前記検索語を入力したユーザのユーザ関心情報を取得するステップと、
    記検索語に基づき検索を行うことで少なくとも1つの文書を選択するステップと、
    記検索語及び記ユーザ関心情報に基づき、選択した各文書中から複数の章句を特定するステップと、
    前記コンピュータに含まれるユーザ関心反映型要約作成マネージャが、前記ユーザ関心情報の構成要素と合致する章句の構成要素の優先度を参照に、章句の構成要素の統合、削除、及び/又は変更によって、特定した章句を圧縮するための複数の要約変換子を決定するステップと、
    前記コンピュータに含まれるユーザ関心反映型要約作成マネージャが、各文書から特定された章句毎に、前記検索語、記ユーザ関心情報及び記要約変換子に基づき当該章句の要約としてユーザ関心反映型検索結果指示子を作成するステップと、
    を実施することを特徴とするユーザ関心反映型検索結果指示子作成方法。
  2. 請求項1記載の方法であって、記章句に他所参照辞が含まれていたらその他所参照辞に対応する前方照応辞を特定し、その前方照応辞に基づき記章句から補強章句を作成し、記章句と当該補強章句との組合せ毎に、前記検索語、記ユーザ関心情報及び記要約変換子に基づきユーザ関心反映型検索結果指示子を作成する方法。
  3. 請求項1記載の方法であって、記章句について構造化意味表現を作成し、その構造化意味表現の構成要素のうち記ユーザ関心情報の構成要素とマッチする構成要素に基づき記章句のユーザ関心反映型要約を作成し、複数のユーザ関心反映型要約が作成された場合、その中から選択された1つのユーザ関心反映型要約を当該章句のユーザ関心反映型検索結果指示子として選択する方法。
  4. 請求項3記載の方法であって、記構造化意味表現を構文解析文法に基づき作成する方法。
  5. 請求項3記載の方法であって、前記要約変換子の適用を制限するための条件である意味歪曲制限子に従いつつ記要約変換子を記構造化意味表現に適用してユーザ関心反映型要約を作成する方法。
  6. 請求項5記載の方法であって、記構造化意味表現が単調下降性手法を用いて単調下降性があると判別される場合、または前記意味歪曲制限子に叙述述語が含まれている場合のうち少なくとも一方場合に、その構造化意味表現に基づき要約を作成する際の前記要約変換子の適用記意味歪曲制限子により制限する方法。
  7. 請求項1記載の方法であって、記章句は、テキストを含むで表される方法。
  8. 請求項7記載の方法であって、前記ユーザ関心反映型検索結果指示子を作成するステップは、前記ユーザ関心情報の構成要素を前記表の見出しとしたユーザ関心反映型検索結果指示子を作成する方法。
JP2005364245A 2004-12-21 2005-12-19 ユーザ関心反映型検索結果指示子使用及び作成システム及び方法 Expired - Fee Related JP4851789B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/017,890 2004-12-21
US11/017,890 US7401077B2 (en) 2004-12-21 2004-12-21 Systems and methods for using and constructing user-interest sensitive indicators of search results

Publications (3)

Publication Number Publication Date
JP2006178978A JP2006178978A (ja) 2006-07-06
JP2006178978A5 JP2006178978A5 (ja) 2009-02-12
JP4851789B2 true JP4851789B2 (ja) 2012-01-11

Family

ID=36237406

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005364245A Expired - Fee Related JP4851789B2 (ja) 2004-12-21 2005-12-19 ユーザ関心反映型検索結果指示子使用及び作成システム及び方法

Country Status (3)

Country Link
US (2) US7401077B2 (ja)
EP (1) EP1675025A3 (ja)
JP (1) JP4851789B2 (ja)

Families Citing this family (107)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BE1016079A6 (nl) * 2004-06-17 2006-02-07 Vartec Nv Werkwijze voor het indexeren en terugvinden van documenten, computerprogramma daarbij toegepast en informatiedrager die is voorzien van het voornoemde computerprogramma.
US7613664B2 (en) * 2005-03-31 2009-11-03 Palo Alto Research Center Incorporated Systems and methods for determining user interests
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US20080027935A1 (en) * 2005-11-30 2008-01-31 Sahar Sarid Anchored search engine results display
US20070136248A1 (en) * 2005-11-30 2007-06-14 Ashantipic Limited Keyword driven search for questions in search targets
US8731954B2 (en) 2006-03-27 2014-05-20 A-Life Medical, Llc Auditing the coding and abstracting of documents
US7853555B2 (en) * 2006-04-19 2010-12-14 Raytheon Company Enhancing multilingual data querying
US7991608B2 (en) * 2006-04-19 2011-08-02 Raytheon Company Multilingual data querying
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7899822B2 (en) * 2006-09-08 2011-03-01 International Business Machines Corporation Automatically linking documents with relevant structured information
US20080215564A1 (en) * 2007-03-02 2008-09-04 Jon Bratseth Query rewrite
US8682823B2 (en) 2007-04-13 2014-03-25 A-Life Medical, Llc Multi-magnitudinal vectors with resolution based on source vector features
US7908552B2 (en) * 2007-04-13 2011-03-15 A-Life Medical Inc. Mere-parsing with boundary and semantic driven scoping
US9946846B2 (en) 2007-08-03 2018-04-17 A-Life Medical, Llc Visualizing the documentation and coding of surgical procedures
WO2009026140A2 (en) * 2007-08-16 2009-02-26 Hollingsworth William A Automatic text skimming using lexical chains
US8041697B2 (en) * 2007-08-31 2011-10-18 Microsoft Corporation Semi-automatic example-based induction of semantic translation rules to support natural language search
US20090070322A1 (en) * 2007-08-31 2009-03-12 Powerset, Inc. Browsing knowledge on the basis of semantic relations
US8712758B2 (en) * 2007-08-31 2014-04-29 Microsoft Corporation Coreference resolution in an ambiguity-sensitive natural language processing system
US7984032B2 (en) * 2007-08-31 2011-07-19 Microsoft Corporation Iterators for applying term occurrence-level constraints in natural language searching
US8346756B2 (en) * 2007-08-31 2013-01-01 Microsoft Corporation Calculating valence of expressions within documents for searching a document index
US8463593B2 (en) * 2007-08-31 2013-06-11 Microsoft Corporation Natural language hypernym weighting for word sense disambiguation
US8868562B2 (en) * 2007-08-31 2014-10-21 Microsoft Corporation Identification of semantic relationships within reported speech
US8639708B2 (en) * 2007-08-31 2014-01-28 Microsoft Corporation Fact-based indexing for natural language search
US8316036B2 (en) 2007-08-31 2012-11-20 Microsoft Corporation Checkpointing iterators during search
US8229970B2 (en) * 2007-08-31 2012-07-24 Microsoft Corporation Efficient storage and retrieval of posting lists
US8280721B2 (en) 2007-08-31 2012-10-02 Microsoft Corporation Efficiently representing word sense probabilities
US8229730B2 (en) * 2007-08-31 2012-07-24 Microsoft Corporation Indexing role hierarchies for words in a search index
JP2010538374A (ja) * 2007-08-31 2010-12-09 マイクロソフト コーポレーション 曖昧感応自然言語処理システムにおける同一指示解決
US20090119095A1 (en) * 2007-11-05 2009-05-07 Enhanced Medical Decisions. Inc. Machine Learning Systems and Methods for Improved Natural Language Processing
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
KR101548273B1 (ko) * 2009-04-08 2015-08-28 삼성전자주식회사 휴대용 단말기에서 웹 검색 속도를 향상시키기 위한 장치 및 방법
CN102576355A (zh) * 2009-05-14 2012-07-11 埃尔斯威尔股份有限公司 知识发现的方法和系统
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US20110106797A1 (en) * 2009-11-02 2011-05-05 Oracle International Corporation Document relevancy operator
US8639688B2 (en) * 2009-11-12 2014-01-28 Palo Alto Research Center Incorporated Method and apparatus for performing context-based entity association
US20110184959A1 (en) * 2010-01-25 2011-07-28 Palo Alto Research Center Incorporated Summarizing medical content with iterative simplification rules
US8386239B2 (en) 2010-01-25 2013-02-26 Holovisions LLC Multi-stage text morphing
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US20110231387A1 (en) * 2010-03-22 2011-09-22 Yahoo! Inc. Engaging content provision
WO2011120211A1 (en) * 2010-03-29 2011-10-06 Nokia Corporation Method and apparatus for seeded user interest modeling
US20110251837A1 (en) * 2010-04-07 2011-10-13 eBook Technologies, Inc. Electronic reference integration with an electronic reader
US20110314028A1 (en) * 2010-06-18 2011-12-22 Microsoft Corporation Presenting display characteristics of hierarchical data structures
US9244984B2 (en) 2011-03-31 2016-01-26 Microsoft Technology Licensing, Llc Location based conversational understanding
US9760566B2 (en) 2011-03-31 2017-09-12 Microsoft Technology Licensing, Llc Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof
US9298287B2 (en) 2011-03-31 2016-03-29 Microsoft Technology Licensing, Llc Combined activation for natural user interface systems
US10642934B2 (en) 2011-03-31 2020-05-05 Microsoft Technology Licensing, Llc Augmented conversational understanding architecture
US9842168B2 (en) 2011-03-31 2017-12-12 Microsoft Technology Licensing, Llc Task driven user intents
US9858343B2 (en) 2011-03-31 2018-01-02 Microsoft Technology Licensing Llc Personalization of queries, conversations, and searches
US9064006B2 (en) 2012-08-23 2015-06-23 Microsoft Technology Licensing, Llc Translating natural language utterances to keyword search queries
US9454962B2 (en) * 2011-05-12 2016-09-27 Microsoft Technology Licensing, Llc Sentence simplification for spoken language understanding
US9275421B2 (en) 2011-11-04 2016-03-01 Google Inc. Triggering social pages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US20140059011A1 (en) * 2012-08-27 2014-02-27 International Business Machines Corporation Automated data curation for lists
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9265458B2 (en) 2012-12-04 2016-02-23 Sync-Think, Inc. Application of smooth pursuit cognitive testing paradigms to clinical drug development
US9380976B2 (en) 2013-03-11 2016-07-05 Sync-Think, Inc. Optical neuroinformatics
US9183257B1 (en) 2013-03-14 2015-11-10 Google Inc. Using web ranking to resolve anaphora
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US10541053B2 (en) 2013-09-05 2020-01-21 Optum360, LLCq Automated clinical indicator recognition with natural language processing
US10133727B2 (en) 2013-10-01 2018-11-20 A-Life Medical, Llc Ontologically driven procedure coding
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9406025B2 (en) * 2014-06-04 2016-08-02 International Business Machines Corporation Touch prediction for visual displays
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
WO2017184204A1 (en) 2016-04-19 2017-10-26 Sri International Techniques for user-centric document summarization
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10652592B2 (en) 2017-07-02 2020-05-12 Comigo Ltd. Named entity disambiguation for providing TV content enrichment
JP6902945B2 (ja) * 2017-07-07 2021-07-14 株式会社野村総合研究所 テキスト要約システム
CN108268582B (zh) * 2017-07-14 2021-05-07 阿里巴巴(中国)有限公司 信息查询方法及装置
US11036742B2 (en) * 2018-03-16 2021-06-15 Motorola Solutions, Inc. Query result allocation based on cognitive load
US20220335541A1 (en) * 2021-04-15 2022-10-20 Armando Lopez, JR. Systems, methods, computing platforms, and storage media for profile matching

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61100861A (ja) * 1984-10-23 1986-05-19 Toshiba Corp 文書編集装置
US5438511A (en) 1988-10-19 1995-08-01 Xerox Corporation Disjunctive unification
JPH02116970A (ja) * 1988-10-27 1990-05-01 Fujitsu Ltd 表内データ自動抽出処理方式
JP3056810B2 (ja) * 1991-03-08 2000-06-26 株式会社東芝 文書検索方法および装置
US5689716A (en) 1995-04-14 1997-11-18 Xerox Corporation Automatic method of generating thematic summaries
JP3579204B2 (ja) * 1997-01-17 2004-10-20 富士通株式会社 文書要約装置およびその方法
US6185592B1 (en) 1997-11-18 2001-02-06 Apple Computer, Inc. Summarizing text documents by resolving co-referentiality among actors or objects around which a story unfolds
US6353824B1 (en) 1997-11-18 2002-03-05 Apple Computer, Inc. Method for dynamic presentation of the contents topically rich capsule overviews corresponding to the plurality of documents, resolving co-referentiality in document segments
GB9806085D0 (en) 1998-03-23 1998-05-20 Xerox Corp Text summarisation using light syntactic parsing
JP4344418B2 (ja) * 1999-03-31 2009-10-14 シャープ株式会社 音声要約装置及び音声要約プログラムを記録した記録媒体
US6490577B1 (en) * 1999-04-01 2002-12-03 Polyvista, Inc. Search engine with user activity memory
JP2001043219A (ja) * 1999-07-27 2001-02-16 Sony Corp 文書処理方法及び装置並びに記録媒体
US6601026B2 (en) 1999-09-17 2003-07-29 Discern Communications, Inc. Information retrieval by natural language querying
AU2001261505A1 (en) 2000-05-11 2001-11-20 University Of Southern California Machine translation techniques
US7251781B2 (en) 2001-07-31 2007-07-31 Invention Machine Corporation Computer based summarization of natural language documents
US6944609B2 (en) 2001-10-18 2005-09-13 Lycos, Inc. Search results using editor feedback
US7181465B2 (en) 2001-10-29 2007-02-20 Gary Robin Maze System and method for the management of distributed personalized information
NO316480B1 (no) * 2001-11-15 2004-01-26 Forinnova As Fremgangsmåte og system for tekstuell granskning og oppdagelse
JP2003248676A (ja) 2002-02-22 2003-09-05 Communication Research Laboratory 解データ編集処理装置、解データ編集処理方法、自動要約処理装置、および自動要約処理方法
US7054857B2 (en) * 2002-05-08 2006-05-30 Overture Services, Inc. Use of extensible markup language in a system and method for influencing a position on a search result list generated by a computer network search engine
US7376893B2 (en) 2002-12-16 2008-05-20 Palo Alto Research Center Incorporated Systems and methods for sentence based interactive topic-based text summarization
US20040230415A1 (en) 2003-05-12 2004-11-18 Stefan Riezler Systems and methods for grammatical text condensation
US7346839B2 (en) * 2003-09-30 2008-03-18 Google Inc. Information retrieval based on historical data
US7610190B2 (en) 2003-10-15 2009-10-27 Fuji Xerox Co., Ltd. Systems and methods for hybrid text summarization
US7657420B2 (en) 2003-12-19 2010-02-02 Palo Alto Research Center Incorporated Systems and methods for the generation of alternate phrases from packed meaning
US7716223B2 (en) * 2004-03-29 2010-05-11 Google Inc. Variable personalization of search results in a search engine
US7310633B1 (en) 2004-03-31 2007-12-18 Google Inc. Methods and systems for generating textual information
US20060031043A1 (en) * 2004-08-04 2006-02-09 Tolga Oral System and method for utilizing a desktop integration module to collect user metrics
US7801723B2 (en) 2004-11-30 2010-09-21 Palo Alto Research Center Incorporated Systems and methods for user-interest sensitive condensation
US7827029B2 (en) 2004-11-30 2010-11-02 Palo Alto Research Center Incorporated Systems and methods for user-interest sensitive note-taking

Also Published As

Publication number Publication date
US20070240078A1 (en) 2007-10-11
US7890500B2 (en) 2011-02-15
EP1675025A2 (en) 2006-06-28
JP2006178978A (ja) 2006-07-06
US7401077B2 (en) 2008-07-15
US20060136385A1 (en) 2006-06-22
EP1675025A3 (en) 2008-08-20

Similar Documents

Publication Publication Date Title
JP4851789B2 (ja) ユーザ関心反映型検索結果指示子使用及び作成システム及び方法
El-Kassas et al. Automatic text summarization: A comprehensive survey
US11481388B2 (en) Methods and apparatus for using machine learning to securely and efficiently retrieve and present search results
Green et al. Parsing models for identifying multiword expressions
US8060357B2 (en) Linguistic user interface
US10140333B2 (en) Trusted query system and method
JP5243167B2 (ja) 情報検索システム
Kowalski Information retrieval architecture and algorithms
Zubrinic et al. The automatic creation of concept maps from documents written using morphologically rich languages
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
US20140280314A1 (en) Dimensional Articulation and Cognium Organization for Information Retrieval Systems
Alami et al. Hybrid method for text summarization based on statistical and semantic treatment
Rodrigues et al. Advanced applications of natural language processing for performing information extraction
US7827029B2 (en) Systems and methods for user-interest sensitive note-taking
Rigouts Terryn et al. HAMLET: hybrid adaptable machine learning approach to extract terminology
Baazaoui Zghal et al. A system for information retrieval in a medical digital library based on modular ontologies and query reformulation
US20040230415A1 (en) Systems and methods for grammatical text condensation
US7801723B2 (en) Systems and methods for user-interest sensitive condensation
JPH09190453A (ja) データベース装置
di Buono et al. Knowledge management and cultural heritage repositories: cross-lingual information retrieval strategies
Bawakid Automatic documents summarization using ontology based methodologies
JP4938298B2 (ja) テキストの要約に含める文の候補を出力する方法およびプログラム
Milić-Frayling Text processing and information retrieval
US20220245326A1 (en) Semantically driven document structure recognition
Chelamet A Text Summarization System for Faster Data Access

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081217

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110303

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110315

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110613

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110616

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110715

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110721

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110804

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110927

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111021

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141028

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees