図1に、本発明の実施形態に係るユーザ関心依存自動ノート作成システム100の使用環境の例を示す。このユーザ関心依存自動ノート作成システム100は、アクセス可能な形態でテキスト1000、1001等を貯蔵している情報レポジトリ200、通信機能付パーソナルコンピュータ300、ユーザ関心情報レポジトリ600等と、随時その通信リンク99を介して個々に接続可能である。ユーザ関心依存自動ノート作成システム100は、例えば図5に示すように、ユーザ要求、指定章句(selected passage)及びテキスト1000を受け取るための入出力回路10、指定章句について一般に複数個の互換な意味構造体を決定する回路25、それら意味構造体内のユーザ関心焦点要素をメモリ30内のユーザ関心情報に基づき判別する回路35、メモリ20内の要約変換子に基づき章句を意味的に圧縮して1個又は複数個の要約候補を作成する回路40、最良のN個の要約候補の中から要約を選択してユーザ関心依存ノートを作成及び出力する回路45、並びに以上の動作を制御しつつ全体動作を実行するプロセッサ15から構成されており、或いは図7に示すように、ユーザ要求、指定章句及びユーザ関心情報を受け取るための入出力回路10、その章句の言語特性を判別する回路85、その章句のスタイル、ジャンル、言語特性等に基づき構文解析文法を決定する回路50、生成文法を決定する回路55、その章句について1個又は複数個のパッケージ化意味構造体を作成する回路60、メモリ20又はユーザ関心情報レポジトリ600内のユーザ関心情報に基づきそのパッケージ化意味構造体におけるユーザ関心焦点要素を判別する回路80、メモリ20内の要約変換子及び意味歪曲制限子を適用してそのパッケージ化意味構造体内の非特徴的情報(less salient information)を除去すること等により意味歪曲無しに圧縮意味構造体を作成する回路65、メモリ20内にある多義性解消用確率モデル(stochastic disambiguation model)等に基づきその圧縮意味構造体から最尤候補意味構造体(maximum likelihood candidate meaning structures)を抽出決定する回路70、この最尤候補意味構造体及び生成文法に基づき要約を自動作成する回路75、この要約及び指定章句に基づきユーザ関心依存ノートを作成する回路45、並びに以上の動作を制御しつつ全体動作を実行するプロセッサ15から構成されており、或いは図8に示す機能構成を有している。
情報レポジトリ200は、例えば、HTML(hyper text markup language)、XML(extensive markup language)、WML(wireless markup language)等によりエンコードされたファイルを提供するウェブサーバ、Microsoft(登録商標)Word文書、Adobe(登録商標)PDF文書等にアクセスできるようにしてあるディジタルライブラリその他、既知のものも今後開発されるものも含めテキスト1000、1001等にアクセス可能な形態によって提供できる。
本発明を実施する際には、例えば、ユーザが通信機能付パーソナルコンピュータ300を操作し、情報レポジトリ200から読み込んだテキスト例えば1000中の任意の章句、即ち1個又は複数個の多語文を含む文章を(例えばハイライトさせることによって)選択・指定する。これに応じ、通信機能付パーソナルコンピュータ300は、そのテキスト1000内の指定章句につきユーザ関心依存ノートを作成するよう求めるユーザ要求を発する。ユーザ関心依存自動ノート作成システム100はこの場合プロキシとして動作する。即ち、発せられたユーザ要求と指定章句を示す情報とを受け取り、それに応じユーザ関心情報レポジトリ600からそのユーザに係るユーザ関心情報を読み込む。その上で、ユーザ関心依存自動ノート作成システム100は、構文解析文法を読み込み、読み込んだ構文解析文法を用いその指定章句について一般に複数個の互換な意味構造体を作成し、意味構造体に要約変換子を適用してユーザ関心依存要約ひいてはユーザ関心依存ノートを作成する。また、要約変換子の適用に前後して、指定章句のうち所定条件を満たす部分に対し即ち条件選択的に、意味歪曲制限子を適用してもよい。そのようにすれば、要約変換子の適用によって意味歪曲が生じることを防ぎ又は要約変換子の適用によって生じた意味歪曲を修復することができる。また、意味歪曲制限子は、要約変換子の適用中や適用後にも適用でき、そのようすれば、発生した意味歪曲を事後的に修復することができる。
各意味構造体に適用される要約変換子の実体は、ユーザ関心情報に基づき作成される情報の集まりであり、意味歪曲制限子はこの要約変換子に内部実装してもよいし随伴させてもよい。要約変換子は意味構造体から圧縮意味構造体を作成するための変換子乃至関数として機能するものであり、圧縮前の意味構造体に含まれている構成要素のうちユーザが関心を持っている概念を表している構成要素が圧縮意味構造体においても確実に保存されるよう、圧縮前の意味構造体に含まれる構成要素を削除し、統合し、また調整等する。この過程に先立ち、ユーザ関心焦点要素を炙り出すため、ユーザ関心情報の構成要素が各意味構造体の構成要素と比較される。例えば、もしユーザ関心情報に「plague」(ペスト菌)なる言葉が含まれている一方、何れかの意味構造体に「plague」と概念的関連のある構成要素が含まれているとする。このような例に対してユーザ関心情報・意味構造体間の構成要素間比較が行われると、その意味構造体の構成要素のうちユーザ関心情報の構成要素と概念的に関連のある構成要素即ち「plague」が、ユーザ関心焦点要素として認識・識別されることとなる。各意味構造体の構成要素についてのこの比較は、概念的類似性判別、同義語・類義語判定、下位語判定、上位語判定、統計的類似性判別、分布的類似性判別その他、各種の類似性判定/判別手法により行うことができる。
類似性を測るための物差しとしては、大規模データベース例えばウェブ全体での統計的類似性指標を使用することができる。例えば、ある単語と、その単語とは別の単語が、ある同じ単語群と同一の文、文章又は文書内で共起しやすい傾向にあるならば、それら2個の単語はある程度の統計的類似性を有していると言える。例えば、「cancer」(癌)という単語は「treatment」(治療)「radiation」(放射線)等といった単語群と同一の文、文章又は文書内で共起しやすい傾向にあり、他方で「melanoma」(黒色腫)という単語も同じく「treatment」「radiation」等と同一の文、文章又は文書内で共起しやすい傾向にあるから、単語「cancer」と単語「melanoma」はある程度の統計的類似性を有していると言える。
また、各意味構造体を獲得知識(semantic facts)から構成することもできる。獲得知識とは、ある特定の特定の物事の集まりに対して特定の述語を適用するように求める単純化された命題のことである。例えば、章句「John saw Bill」(ジョンがビルと会った)をエンコード(符号表現化)して得られる獲得知識が「see(John,Bill)」であるとすると、章句「Sam realized that John saw Bill」(サムはジョンがビルと会ったことを知った)をエンコードして得られる獲得知識は「realize(Sam,P)」となり、またこの獲得知識中の述語Pも獲得知識「see(John,Bill)」としてエンコードされる。
構文解析文法の適用により各意味構造体を獲得知識から構成した場合、それらの意味構造体への要約変換子の適用に前後してユーザ関心焦点要素を炙り出す際には、各意味構造体の構成要素のうちユーザ関心情報内の対応する構成要素にマッチングしている獲得知識を探し、その獲得知識にマーキングする。即ち、各意味構造体群の構成要素のうち、ユーザが多大な関心を持っている概念を記述している獲得知識が要約変換子の適用後にも優先的に保持されるよう、獲得知識に対して選択的にマーキングを施す。要約変換子は、各意味構造体群内の獲得知識のうち、マーキングされている獲得知識が保持されるよう、また好ましくは更に、マーキングされていない獲得知識が省略されるよう、各意味構造体内の獲得知識に適用される。
要約変換子を各意味構造体内の獲得知識に適用しそれらの削除、統合、変換その他圧縮につながる処理を行うことにより、一般に複数個の互換な圧縮意味構造体又は圧縮テキスト構造体と呼べる構造体が作成される。その際、要約変換子は、各意味構造体内の獲得知識とユーザ関心情報の構成要素との類似性に基づき、各圧縮意味構造体乃至テキスト構造体内の構成要素のうちユーザ関心焦点要素に対して高い保持優先順位を付ける。また、実施に当たっては、要約変換子に意味歪曲制限子を組み込んでおくこともできる。意味歪曲制限子を組み込んでおけば、要約変換子の適用により作成される圧縮意味構造体にて指定章句の意味からの意味歪曲が発生する確率が減る。何れの形態にせよ、ユーザ関心情報に基づき意味歪曲制限子を適用することによって、指定章句内に表されているユーザ関心対象概念が引き続き圧縮意味構造体内でも保存される可能性が高まる。
要約変換子の適用によって圧縮意味構造体が作成されたら、それら圧縮意味構造体に対して多義性解消モデルを適用することにより、何個かの(最尤)候補意味構造体を作成する。例えば、圧縮意味構造体に対して適用したとき指定章句からして適切な候補意味構造体が作成されるような統計モデル、確率モデル又は予測モデルを、多義性解消モデルとして決定する。このモデル例えば確率モデルに対しては、トレーニングセットに組み込まれている例のうち良好な例題に対しては高い確率を割り当てさほど望ましくない又はさほど適切でない例題に対しては低い確率を割り当てるよう、トレーニングを施しておくとよい。このようなトレーニングを施すことは、トレーニングセットを構成しているフィーチャ(素性が分かっている例題)の好ましさについての指標を、その多義性解消モデルから確率情報等として得られるようにする、ということである。こうしたトレーニングを経たモデルを各圧縮意味構造体に適用すれば、(最尤)候補意味構造体を選択的に決定することができる。なお、その結果得られる(最尤)候補意味構造体が、元々のテキストで使用されている言語例えば英語の文に対応した構成を有するものになるようにする必要はない。
次いで、こうして決定された候補意味構造体に生成文法を適用することによって何個かの要約候補が決定される。このとき、決定した要約候補に対し文に対応してランキングを付してもよい。例えば、多義性解消用の統計モデル、確率モデル又は予測モデルから得られた各要約候補に対し、文短縮率を用いてランキングを付してもよい。ユーザは、ランキングが付された要約候補のうち1個を、指定章句の意味合いを好適に表すユーザ関心依存要約として、選択することができる。ユーザ関心依存ノートは例えばこのようにして選択されたユーザ関心依存要約を表す要約部を含む情報として作成される。ユーザ関心依存ノートには、この要約部だけでなく、この要約部に関連付けられている章句部を含む構成とすることができる。章句部とは、指定章句に含まれている情報であって、ユーザ関心依存ノート内の要約部に関連付けられている情報を言う。即ち、ユーザ関心依存ノートの作成の際に要約部と関連付ける章句部を決定してもよい。ユーザ関心依存ノートには、更に、動的な可選択ユーザインタフェースコンポーネントを含める(或いは少なくとも関連付ける)ことができる。可選択ユーザインタフェースコンポーネントは、ユーザ関心依存ノートの構成部分、例えば要約部や章句部に関連付ける。可選択ユーザインタフェースコンポーネントを操作することによって、ユーザは、その可選択ユーザインタフェースコンポーネントに関連付けられておりユーザ関心依存ノートに含まれている要約部、章句部その他の部分を表示させ又はその表示を伸縮させる(例えば表示窓を開いたり広げたり縮めたり閉じたりする)等、することができる。更に、ユーザに提示する要約候補の個数N、即ちランキングに従って最良のものから何個の要約候補を選ぶかについては、実施に当たって任意に設定乃至調整することができるから、例えばN=1に設定しておけば最もランキングが高い要約候補が自動的に選択されることとなり、ユーザが複数個の要約候補のリストの中から1個を選択する手間が省かれる。また、手動的にであれ自動的にであれ選択された要約候補について、選択直後、後刻又はその双方にてユーザによる編集を行えるようにしてもよい。
図2は、ユーザ関心依存自動ノート作成システム100について本発明の第1実施形態に係る使用手順を示すフローチャートであり、例えば図5に示したシステム100中の特にプロセッサ15にて実行されるものである。この図に示されている手順はステップS200にて始まった後直ちにステップS205に移行する。ステップS205ではノートを作成すべきテキストに含まれている章句が指定章句として特定される。指定章句の特定は、その章句をハイライトする、その章句にタグを付ける等、既知の又は今後開発される手法又はその任意の組合せによってテキスト内の章句を選択等することにより、行われる。その後この手順はステップS210に続く。
ステップS210ではこの指定章句についてのユーザ関心依存ノートが作成される。その際には、例えば、指定章句の意味を表現する情報の集まりである意味構造体が作成され、ユーザの関心の所在を示す情報の集まりであるユーザ関心情報が読出、作成等の手法により決定され、指定章句又はその意味構造体内のユーザ関心焦点要素がユーザ関心情報の構成要素と指定章句又はその意味構造体の構成要素との類似性に基づき判別され、指定章句又はその意味構造体に対する要約変換子の条件選択的適用による圧縮、省略その他の要約化操作によって指定章句又はその意味構造体がよりサイズの小さな圧縮章句又は圧縮意味構造体に変換される。この変換の際、指定章句内又は意味構造体内のユーザ焦点集中要素は、ユーザの関心とさほど密接に関連していない構成要素に比べて、圧縮章句又は圧縮意味構造体内でも優先的に保持される。
更に、このようにして得た圧縮章句又は圧縮意味構造体に基づき要約が作成され、ユーザ関心依存ノートがこの要約を含む要約部及び好ましくはこの要約部に関連付けられている章句部から形成される。ユーザ関心依存ノートに含まれている要約部は、ユーザの関心を惹くであろう事項に関する意味的な目印乃至見出しであり、これに関連付けられている動的な可選択ユーザインタフェースを操作することによって対応する章句部等を展開表示させ閲覧し再考すること等が可能である。そしてこの手順はステップS215へと続く。
ステップS215ではこのユーザ関心依存ノートを許容できるかどうかが判別される。許容できるかどうかの判別は明示的に行うようにしてもよいし暗黙のうちに行うようにしてもよい。例えば、ユーザ関心依存ノートが自動的に許容されるようデフォルト設定しておいてもよいし、ユーザが格別に拒絶しない限りそのユーザ関心依存ノートは許容されたものと見なすようにしてもよいし、ユーザが明示的に許容しない限りそのユーザ関心依存ノートは拒絶されたものと見なすようにしてもよい。暗黙のうちにせよ明示的にであれ、ここでユーザがそのユーザ関心依存ノートを拒絶したなら、この手順は(必須ではない)ステップS220へと続く。
必須でないステップS220ではユーザ関心依存ノートの章句部に基づき新たなユーザ関心依存ノートが作成される。例えば、ユーザ関心依存ノートのうちプログラムによって作成された要約部がユーザの求めるところに適合していなかった場合は、ユーザは指定章句又はこれを利用して作成した情報をユーザ関心依存ノート内に新たな要約部として挿入することができる。即ち、プログラムによって作成された要約を許容できなかったユーザは指定章句自体をそのユーザ関心依存ノートに挿入することができ、それによって簡単に、指定章句の意味を全面的にそのユーザ関心依存ノート内に保存させることができる。
また、ステップS215にて許容できるユーザ関心依存ノートはないと判別されたら指定章句が自動挿入されるようにしてもよい。このように、不都合な事態に対してユーザの自然な感覚に沿うようデフォルト的且つ柔軟に対処することにより、ユーザが負う心理上、知覚処理上の負担が軽減される。この手順は更にステップS225へと続く。
ステップS225ではユーザがユーザ関心依存ノートを編集するかどうかをユーザ又はシステムが判別する。ユーザ又はシステムがユーザ依存ノートに施せる編集は、例えば、その要約部をより洗練したものに仕上げる、章句部があるならそれを手動修正する、ハイライト・下線その他の強調処理を施す、といったことである。編集不要と判断された場合はこの手順は直ちにステップS235へと移行する。
逆に、ユーザ関心依存ノートに対する編集が必要であると判断された場合はこの手順はステップS230に移行し、ステップS230にてユーザ関心依存ノートがユーザによる編集に従い変形される。例えば、ユーザは、ユーザ関心依存ノート内の要約部や(もしあるなら)章句部に語句を追加し又はそれらから語句を削除する等することができる。このようにユーザが編集乃至変形を施すことによって、指定章句の意味に関わるユーザ関心焦点の目印乃至見出しとしての要約部の実用性が高まる。
ユーザ関心依存ノートに対する編集乃至変形の態様には様々な態様があり得、それらはユーザ選択により行うことも自動的に行うこともまたその組合せにより行うこともできる。そういった編集乃至変形によって、ユーザ関心情報に適ったユーザ関心依存ノートを得ることができる。また、ユーザ関心依存ノートはどのような種類の章句から作成してもよい。例えば、以前に作成されたユーザ関心依存ノートに含まれている章句を指定章句として新たなユーザ関心依存ノートを作成してもよい(勿論これ以外の章句を指定章句としてもよい)。作成済のユーザ関心依存ノートを指定章句として新たなユーザ関心依存ノートを作成する際には、例えば、先のユーザ関心依存ノートを作成してから今までに新たなユーザ関心情報が追加されているかどうかを判別し、追加されていれば新たなユーザ関心依存ノートを作成する、というようにすればよい。次いでこの手順はステップS235へと続く。
ステップS235ではユーザ関心依存ノートが出力される。出力の形態としては、そのユーザ関心依存ノートをファイル乃至記憶/格納媒体に保存する、そのユーザ関心依存ノートをビデオモニタ乃至表示装置上に表示させる、等々の形態があり得る。そしてこの手順はステップS240に移行する。
ステップS240においては、現自動ノート作成セッションを終了させるための処理を開始すべきかどうか、またそのように要求されているかどうかが判別される。例えば、一連のキー操作、マシンシャットダウン、タイマによる所定時間計時等のイベントに応じて終了処理を開始させる。このステップS240にてセッション終了処理実行せずとの判別が下された場合はこの手順はステップS205に移行しステップS205〜S240が繰り返されるが、現セッション終了と判別された場合はこの手順はステップS245に移行して終了する。
図3は、本実施形態に係る手順のうち、ユーザ関心依存ノートを作成する処理の部分(図2中のステップS205及びS210やS220に相当)について、第1の例を示すフローチャートである。この手順はステップS10にて始まった後直ちにステップS15に進む。
ステップS15ではユーザ関心依存ノート内に要約化すべき章句が特定される。ノート化するこの指定章句は、ファイルから読み込む、ウェブサーバ等の情報レポジトリから読み込む、自動音声認識システムを用いた音声認識により取り込む等、既知の又は今後開発される選択乃至入力手法を用いて特定する。また、この指定章句の構成要素に対して共参照な(co-referent)非ローカル情報形式の語句によって指定章句を補強することもできる。指定章句内語句間共参照判別方法については非特許文献2に記載されているので参照されたい。この後この手順はユーザ関心情報を決定するステップS20に進み更にステップS25に進む。
ステップS25では要約変換子が作成される。要約変換子は指定章句の構成要素を統合、削除、変更等して指定章句のサイズを圧縮する変換子である。要約変換子は例えばXLE(Xerox Linguistic Environment:但しXeroxは登録商標)ではリライトルール又はリライト関数で表せるが、XLE以外の様々な言語学的・言語処理的なツール・関数・環境等によっても圧縮変換子を作成することができる。手順は更にステップS30に進む。
ステップS30ではユーザ関心情報及び要約変換子に基づき圧縮章句が作成される。即ち、ユーザ関心情報として認識された情報に対し要約変換子を条件選択的に適用することによって、指定章句から修飾語句その他の非特徴的情報を削除しユーザ関心情報の構成要素にマッチングしている構成要素を含む圧縮章句を得ることができる。手順は更にステップS35に進む。
ステップS35では圧縮章句に基づき要約候補が1個又は複数個決定される。要約候補は指定章句のうちその意味上ユーザの関心を惹く部分を記述した情報であり従ってユーザ関心指示子である。また、要約候補に対し統計モデル、確率モデル、予測モデル又はその任意の組合せを利用して選択用のランキングを付してもよい。手順は更にステップS40に進む。
ステップS40では要約候補のうち1個と指定章句とに基づきユーザ関心依存ノートが作成される。ユーザ関心依存ノート内で要約部を章句部に関連付けてもよい。要約部が選択されたらその要約部を同ユーザ関心依存ノート内の対応する章句部のヘッダとすることもでき、また要約部をアンカーとしておきその要約部が選択されたらその要約部に対応する章句部が流れるように展開表示されるようにしてもよい。要約部はユーザの関心を惹く情報の目印乃至見出しとなるから、これを利用して、そのユーザ関心依存ノート内で(もしあれば)その要約部に関連付けられている章句部その他の部分の詳細を展開閲覧できるようにすることもできる。
例えば、ユーザ関心依存ノート内の要約部、章句部その他部分はユーザアクションに応じて随時表示させる。具体的には、ユーザ関心依存ノート内の要約部がクリックされたときにこれに対応する章句部を表示させるようにすればよい。この後手順はステップS45に進んで図2中のステップS210に戻り直ちにステップS215に移行する。
図4は、本実施形態に係る手順のうちユーザ関心依存ノートを作成する処理について第2の例を示すフローチャートである。この手順はステップS50にて始まった後直ちにステップS55へと進む。
ステップS55ではユーザ関心依存ノート内に要約化すべき章句が指定章句として特定される。ノート化対象とするこの指定章句は、ファイルから読み込む、ウェブサーバ等の情報レポジトリから読み込む、自動音声認識システムを用いた音声認識により取り込む等、既知の又は今後開発される選択乃至入力手法を用いて特定することができる。この後この手順はユーザ関心情報を決定するステップS60に進む。
実施に当たっては、ユーザ関心情報を、ユーザ識別子に基づきファイルから読み込むようにしてもよいし、インタラクティブな操作でユーザが入力するようにしてもよいし、これら以外の入力手法を用いてもよい。手順は更にステップS65に進む。
ステップS65では要約変換子が作成される。要約変換子は、指定章句の構成要素を統合、削除、変更等することにより指定章句をよりサイズが小さな圧縮章句へと変換する変換子である。要約変換子は例えばXLEのリライトルール又は関数等、各種の言語学的・言語処理的なツール・関数・環境等に従い表すことができる。手順は更にステップS70に進む。
ステップS70では意味構造体が作成される。意味構造体を作成するには、指定章句を意味構造体へと変換できる構文解析文法を用いればよい。意味構造体は例えばf表現意味構造体(f-structure)を含む構成とすることができ、また文法としてはLFG(lexical functional grammer)、HPSG(head-driven phrase structure grammer)等を使用することができる(但しこれらには限られない)。手順は更にステップS75に進む。
ステップS75ではユーザ関心情報及び要約変換子に基づき圧縮意味構造体が作成される。即ち、ユーザ関心情報として認識された情報に基づき要約変換子が条件選択的に適用され、それによって意味構造体から修飾語句その他の非特徴的情報が削除され、ユーザ関心情報の構成要素にマッチングしている構成要素を含む圧縮意味構造体が得られる。手順は更にステップS80に進む。
ステップS80では圧縮意味構造体に基づき要約候補が1個又は複数個決定される。要約候補は指定章句のうちその意味上ユーザの関心が集中するはずの部分を表現したユーザ関心指示子である。要約候補には統計モデル、確率モデル、予測モデル又はその任意の組合せを利用し選択用のランキングを付すこともできる。手順は更にステップS85に進む。
ステップS85では要約候補のうち1個と指定章句とに基づきユーザ関心依存ノートが作成される。ユーザ関心依存ノート内で要約部を章句部に関連付けてもよい。要約部が選択されたらその要約部を同ユーザ関心依存ノート内の対応する章句部のヘッダ又はブレットとすることもでき、また要約部をアンカーとしておきその要約部が選択されたらその要約部に対応する章句部が流れるように展開表示されるようにしてもよい。要約部は情報的にユーザの関心を惹く目印乃至見出しとなり、これを利用して、そのユーザ関心依存ノート内で(もしあれば)その要約部に関連付けられている章句部その他の部分の詳細を展開閲覧させることもできる。
例えば、ユーザ関心依存ノート内の要約部、章句部その他部分はユーザアクションに応じて随時表示させる。具体的には、ユーザ関心依存ノート内の要約部がクリックされたときにこれに対応する章句部を表示させるようにすればよい。この後手順はステップS90に進んで図2中のステップS210に戻り直ちにステップS215に移行する。
図6は、ユーザ関心依存自動ノート作成システム100について本発明の第2実施形態に係る使用手順を示すフローチャートである。この手順はステップS100にて始まった後直ちにステップS105に進む。ステップS105においてはノート作成対象たる章句が指定章句として特定される。
ユーザによる指定章句の特定はテキスト内の1個又は複数個の多語文をハイライトさせ、ペーストし、マーキングし又は選択することによって行うことができる。手順はその上でステップS110へと進む。ステップS110では指定章句について言語特性が判別される(但しこれは必須なステップではない)。
実施に当たっては、指定章句に係る言語特性を、そのテキストを記述している言語例えばXML、HTML等にて使用されている言語識別タグ、指定章句を対象とした言語解析その他、既知の又は今後開発される言語判別手法を用いて判別すればよい。次いで手順はステップS115へと進む。
ステップS115ではユーザ関心情報が決定される。ユーザ関心情報は、例えば、そのユーザが関心を抱いている事項の明示的又は暗示的な概念表現を含む情報である(但しこれに限られるものではない)。例えば、ダイアログボックスその他の入力要素からキーワードを取得する、といった形態で、そのユーザに関する明示的な情報を捕捉することができる。また、WordNet(商標)等のレキシコン(lexicon:レキシカルデータベース)を使用して例えば同義語・類義語、上位語、下位語、用例等、そのユーザが抱いている関心と明らかに関連している概念的表現即ち関連概念を集めてもよい。これら入力されるキーワードや関連概念はそのユーザが関心を抱いている情報を反映しているから、ユーザ関心情報として使用することやそれらからユーザ関心情報を作成することができる。
また、ユーザの関心を間接的又は非明示的に記述している表現・情報に基づきそのユーザの関心がどこに所在しているのかを判別することによって、ユーザ関心情報を決定してもよい。例えば、ライブラリ内やデータレポジトリ内におけるユーザによるブラウジングパターン乃至傾向から導かれる推論によって、ユーザの関心がどこに所在しているのかを判別してもよい。或いは、そのユーザのカリキュラム歴、履修コースリスト、学歴、職歴、熟練度、趣味その他、そのユーザに関連した情報を用いそのユーザの関心の所在を判別してもよい。その後処理はステップS120に進む。
ステップS120では構文解析文法が決定される。構文解析文法の決定は、判別済の言語特性、章句指定元のテキストのジャンル等、指定章句又はその所属元テキストに関する既知の種類の又は今後明らかにされる種類の特性情報に基づき行えばよい。従って、構文解析文法としては、例えばLFG、HPSG、LTAG(lexicaized tree adjoining grammer)、CCG(combinatory categorial grammer)等、それを用いた構文解析により指定章句を意味構造体に変換可能な既知の若しくは今後開発される文法を、単独で又は任意に組み合わせて用いればよい。
例えば、指定章句の言語特性が「English」(英語)でジャンル特性が「newspaper」(新聞)ならそれらに応じ構文解析文法を選択的に決定すればよい。指定章句の言語特性が「English」でジャンル特性が「scientific publication」(科学的出版物)ならそれらに応じ構文解析文法を選択的に決定すればよく、そのようにすれば「Bio-Engineering」(バイオエンジニアリング)関係の記事を構文解析できるであろう。このように、構文解析文法としては各テキスト乃至指定章句の言語構造を認識できるものを選択決定する。構文解析文法は、先に決定してある総称的乃至上位概念的文法であってもよいし、そのテキスト又はその特定プロパティに基づく文法であってもよい。この手順は次いでステップS125に進みステップS125では生成文法が決定される。
生成文法は、作成される要約が使用言語の文法に適ったものになるようにする。生成文法は構文解析文法と同一であってもよい。本発明の実施に当たっては、LFG、HPSG、LTAG、CCGその他、意味表現に含まれている情報を表す文を作成するのに有用な既知の若しくは今後開発される文法を、単独で又は組み合わせて用いることができる。
本発明の実施に当たって望ましいのはあるバージョンのLFGを生成文法として用いることである。即ち、自然言語例えば英語のプロパティを正確にモデリングしている限りにおいては、LFGにより得られる出力は文法的に正しいものになるから、文法的に正しい要約された文を作成するにはそのようなバージョンのLFGを用いるのが望ましい。但し、明らかなことに、既知の又は今後開発されるどのような文法も、本発明における構文解析文法、生成文法又はその双方として用いることができる。手順は更にステップS130に進む。
ステップS130では要約変換子が作成される。要約変換子は、各意味構造体の構成要素について削除、統合、変更又はその任意の組合せを実行する変換子であり、リライトルールその他、既知の又は今後開発される意味構造体変換手法を利用した変換子である。手順は更にステップS135に進む。
ステップS135では意味歪曲制限子が作成される。意味歪曲制限子は、必須なものではないが、各要約変換子にこれを適用することによって、より確実に、指定章句から圧縮意味構造体ひいては要約への変換を、指定章句からの意味歪曲を伴わないで行うことができる。例えば「The CEO believes that 4th quarter earnings will improve.」(CEOは第4四半期の売り上げが伸びると信じている)という文は「The 4th quarter earnings will improve.」(第4四半期の売り上げは伸びる)と要約できるが、このような要約の値打ちはさほど高くない。それは、指定章句で述べられていたのが「信条」であるのに「事実」へと意味的に歪曲されているからである。必須ではないながらも、要約変換子と併用する形で又は要約変換子に組み込んだ形で意味歪曲制限子を適用すれば、指定章句からの意味歪曲を伴う要約が作成されることは生じにくくなり、そういった要約が作成されるという懸念がなくなる。次いで手順はステップS140に進む。
ステップS140では指定章句及び構文解析文法に基づき各意味構造体からパッケージ化意味構造体(packed meaning structure)、例えばXLEによるf表現意味構造体をパッケージ化したものが作成される。XLEf表現意味構造体についてはより詳細には非特許文献1を参照されたい。無論、他種の意味表現も用いることができる。
パッケージ化XLEf表現意味構造体においては、テキスト中の章句における文脈化言語事実(contexted fact)についてのリストが作成されるため、それによって自然言語におけるいくつかの意味を効率的にエンコードできる。即ち、Ci→Fiの形態を採る文脈化事実の集まりとして複数通りの意味をエンコードできる(Ciは文脈、Fiは言語事実)。文脈は、通常は、章句又は文が有している複数通りの意味を記述しているand−orツリー構造(and-or forest)から一組選択される。パッケージ化XLEf表現意味構造体に含まれる言語事実は、何れも当該パッケージ化XLEf表現意味構造体内では1回しか生起しない。これは、そのパッケージ化XLEf表現意味構造体内にほぼ同じ意味を表すいくつかの意味表現が含まれておりそれらの意味表現にその言語事実が共通している場合であってさえも、そうである。このように言語事実を正規化することは、構成要素を探索及び変換する上で好都合である。
即ち、自然言語に多義性があるため、個別のパッケージ化XLEf表現意味構造体によって複数通りの意味が表現されること、言い換えればパッケージ化XLEf表現意味構造体内にこれら複数通りの意味表現がエンコードされる(併記される)ことがあるものの、それらのうちいくつかの意味表現に共通する構成要素がそのパッケージ化XLEf表現意味構造体内に繰り返して現れることはない。例えば、英語における「the duck is ready to eat」なる文言には二通りの意味があり、そのうち一つは「the duck is hungry」(その家鴨は空腹である)という意味であり、もう一つは「the duck is cooked」(その家鴨は調理済である)という意味である。パッケージ化XLEf表現意味構造体内にはこれら二通りの意味が併記されるが、それら二通りの意味表現の間で「duck」なる語句が下位構造として共有されるため、パッケージ化XLEf表現意味構造体に含まれている情報を操作するのに要する時間は短くて済む。なお、解離的接続詞の単一化及びf表現意味構造体のパッケージ化については特許文献1を参照されたい。この手順は更にステップS145に進む。
ステップS145では、パッケージ化意味構造体内におけるユーザ関心焦点要素がユーザ関心情報に基づき判別される。ユーザ関心焦点要素とはパッケージ化意味構造体の構成要素のうちユーザ関心情報内の対応する構成要素とマッチング又は類似している構成要素のことである。即ち、本発明を実施するに当たっては、例えば、ユーザ関心情報の構成要素をパッケージ化意味構造体内の対応する構成要素と照合することによって、ユーザ関心焦点要素を判別する。その結果、パッケージ化意味構造体の構成要素のうちユーザ関心情報の構成要素にマッチング又は類似していると判別された構成要素には、ユーザ関心焦点要素であるとマーキングされる。マッチング又は類似していると判別されるのは、ユーザ関心情報の構成要素により表現されている概念とパッケージ化意味構造体の構成要素により表現されている概念との間に、文言的類似性、概念的類似性、統計的類似性等の類似性がある場合である。手順は更にステップS150に進む。
ステップS150では、ユーザ関心焦点要素、意味歪曲制限子及び要約変換子に基づきパッケージ化意味構造体から圧縮(パッケージ化)意味構造体が作成される。このときパッケージ化意味構造体の構成要素に対し適用される要約変換子には、例えば、非特徴的構成要素を削除する変換子、別のより短い若しくはよりコンパクトな構成要素に置換する変換子、構成要素を変形する変換子等が含まれ得る(但しこれらに限られるものではない)。要約変換子に対しては、ユーザ関心焦点要素が優先的に保持されるよう且つ指定章句の意味合いが歪曲されないよう、制限が課される。即ち、本発明を実施するに当たっては、例えばパッケージ化XLEf表現意味構造体内にエンコードされている複数通りの言語事実が要約変換子に基づき変換される。要約変換子によりエンコード動作乃至処理を施すことによって言語事実が追加、削除又は変形され、それによってパッケージ化意味構造体内の表現のうち非特徴的情報や関係希薄情報の生起回数が少なくなる。その結果得られる圧縮意味構造体即ち変換された言語事実を含む意味構造体は、それぞれ要約作成に当たり意味構造体として使用されるかもしれない意味構造を効率的にエンコードした結果を表す意味構造体となる。圧縮意味構造体が作成されたらこの手順はステップS155に進む。
ステップS155では例えば確率的な多義性解消モデルを適用することによって圧縮意味構造体から(最尤)候補意味構造体が何個か作成される。候補意味構造体は、最尤候補意味構造体の作成は、確率的多義性解消手法(stochastic disambiguation method)、字句意味論的多義性解消手法(lexical semantic disambiguation method)等、既知の又は今後開発される多義性解消手法を用いて作成される。例えば、何個かの圧縮意味構造体に対して統計的解析を適用することにより最尤多義性解消モデルを作成する。
モデルを作成したらそのモデル例えば予測多義性解消モデルを圧縮意味構造体に適用して何個かの圧縮された最尤候補意味構造体を作成する。この作成は何個かのプロパティ関数、例えば属性(attributes)、属性結合(attribute combinations)、属性対定義対(attribute value pairs)、動詞幹共起(co-occurrence of verb-stems)、下位範疇化フレーム(sub-categorization frames)、ルールトレース情報(rule trace information)その他、既知の又は今後知られることとなる意味構造体フィーチャに基づき実行する。例えば、本発明を実施するに当たっては、教師データ
に含まれる各文yについて一組の最尤候補意味構造体S(y)を決定し、多義性解消モデルたる予測モデルを圧縮意味構造体最尤化条件L(λ)に基づきトレーニングする。この最尤条件L(λ)は次の式
に基づき各文毎に与えられる。この式中のfはプロパティ関数であり、y及びsは原文と理想圧縮意味構造体(gold-standard reduced meaning structure)との対を表している。その上で、最尤候補意味構造体を、これら(予測的)多義性解消モデル及び圧縮意味構造体に基づき作成する。作成される最尤候補意味構造体は圧縮意味構造体の一部即ちサブセットであり、使用する多義性解消モデル例えば確率的多義性解消モデルにより決定した生起可能性しきい値とそれらのプロパティとの比較結果に基づき作成する。最尤候補意味構造体が作成されたらこの手順はステップS160に進む。
ステップS160では要約が作成される。例えば、生成文法を最尤候補意味構造体と併用することにより、指定章句の意味を代表するにふさわしく要約部として使用できる文を1個又は複数個判別する。実施に当たっては、何個かの最尤候補意味構造体の中から最良のN個の構造体を要約候補として選び、その結果を示すピックアップリストを作成して出力する。そのようにすれば、ユーザは、出力されたリストに含まれる要約候補のうち何れかを、指定章句に含まれる意味合いのうちユーザの関心を惹く意味合いを示す目印乃至見出しとして、迅速に選択することができる。但し、本発明を実施するに当たり、最尤な又は次善な要約候補を提示できる他の方法を用いてもよい。その上でこの手順はステップS165へと進む。ステップS165においては、選択された要約候補及び(もし希望なら)対応する章句に基づきユーザ関心依存型の要約部(即ちユーザ関心依存要約)及び章句部が選択的に作成され、それらによりユーザ関心依存ノートが作成される。そしてこの手順はステップS170へと進んで終了する。
図8は、本発明の実施形態に係るユーザ関心依存自動ノート作成システム100の機能構成を概観する図である。この図に示すように、まずテキスト1000から少なくとも1個の多語文を含む章句が指定章句として選択的に特定され、特定された指定章句に係るパッケージ化意味構造体がLFGに係る構文解析文法2200を用いXLE構文解析部900により作成され、ユーザ関心情報700及び(これは必須ではないが)意味歪曲制限子850を伴い又は組み込んである要約変換関数(要約変換子)800が変換部1100にてこのパッケージ化意味構造体に対し条件選択的に適用され、それによって作成された圧縮パッケージ化意味構造体に対し統計的選択部1200にて多義性解消用統計モデル1300が適用されて候補意味構造体が作成・選択され、XLE要約候補作成部1400にてLFG等における生成文法2300が適用されて1個又は複数個の(図中「N個の」)(好ましくは)文法的に正しい要約候補が作成され、作成された(好ましくは)文法的に正しい要約候補の中から指定章句の意味を表すのにふさわしいものがユーザによって要約部として選択され、その結果に基づき例えば要約部に章句部を関連付けた形でユーザ関心依存ノート1500が作成され、好ましくはそのユーザ関心依存ノート1500がノートファイル内に格納・記憶される。ユーザは、ユーザ関心情報に基づきその要約内又はユーザ関心依存ノート内に関連付けられているユーザインタフェース要素を用い動的に選択操作を行うことにより、そのノートファイルからそのユーザ関心依存ノート1500を取り出してその全体又は一部を表示させることができる。表示されるユーザ関心依存ノート1500には、要約部だけでなくこれに関連する章句部をも(必須ではないが)含めることができる。
図9に、本発明にて要約対象とされる章句の例を示す。例示されている章句は1個の文から構成されており、この文には何個かの修飾語句が含まれている。より詳細には、この文においては、「a dish of plague」(皿に載せたペスト菌)が「the gates of the fortress」(砦の複数の門)をどのように通り抜けたかが、詳細に説明されている。ユーザ関心情報即ちユーザの関心が記述されている情報から見て、皿が砦の門をくぐった形態に関する記述をユーザに提示することが適切でない場合、この章句についての要約は、例えば「Igor Domaradsky carried a dish with a culture of plague through the gates.」とするのが望ましいであろう。このユーザ関心依存ノートの要約部には、運んだ形態に関する記述が含まれないことととなるが、それでもそのユーザ関心依存ノートはユーザの役に立つものになる。なお、この要約は、後に図示する通り「イゴール・ドマラドスキは培養したペスト菌を皿に載せて運びそれらの門をくぐった。」「培養されたペスト菌に感染しているイゴール・ドマラドスキが皿を運んでそれらの門をくぐった。」というように二通りに解釈できる(本発明ではこれらを双方とも語句重複無しに同じ意味構造体内にエンコードできる)。
図10に、本発明におけるユーザ関心情報格納用データ構造について第1の例1600を示す。このデータ構造1600は複数個の行を含んでおり、各行にはそれぞれユーザの関心が集まる構成要素を含むユーザ関心情報が格納されている。これらの構成要素は、論理AND演算子、論理OR演算子、展開(拡張)演算子、否定子その他、既知の又は今後開発される概念記述手法による論理演算子を用いて展開(拡張)又は圧縮することができる(但し必須ではない)。構成要素の展開・拡張は、例えばシソーラス(類義語・関連語のリスト)や各種のオントロジ、例えばWordNetレキシコン等を調べることにより、実現できる。
この例中、第1行は「["Igor Domaradsky"|Igor]」なるエントリを含んでいる。このエントリは、人名を示す語句「Igor Domaradsky」がフルネーム「Igor Domaradsky」で現れていてもファーストネーム「Igor」だけで現れていてもよいことを、記述している。
第2行は「+[disease*2]」なるエントリを含んでいる。このエントリは、ユーザ関心情報中の第2の構成要素により記述されている概念が「disease」(病気)なる語句に関連するものであることを、表している。また、このエントリに含まれている「*」というシンボルは、このエントリで定められている概念記述形態が、「disease」だけでなく、WordNetレキシコン内における「disease」の所在箇所からリンクされておりWordNetレキシコン内に蓄えられている同義語・類義語、上位語及び下位語の集まりを併用して記述する、という形態であることを表しており、また「2」は、この記述にて同義語・類義語、上位語及び下位語として使用されるのは「disease」から2リンク以内にあるものであることを、表している。例えば、「viral infections」(ウィルス性の病気)「bactrial ingections」(細菌性の病気)といった下位語には「disease」からリンクを1個辿れば到達でき、また特定の病気例えば「Ebola」(エボラ出血熱)「plague」(ペスト)「pneumonia」(肺炎)といった下位語には「disease」からリンクを2個辿れば到達できるから、それらはこのエントリによる概念記述に含まれている。そして、このエントリ中、語句に先行している「+」なる文字は、ここで記述している概念をユーザ関心情報乃至概念に肯定的に含める、ということを表している。逆に、もしこの種のエントリ内に「-」なる文字があれば、それは、そこで記述している概念をユーザ関心情報乃至概念に否定的に含める(概念的に除外する)ことを、表している。
第3行は「+[bio-terrorism*]」なるエントリを含んでいる。このエントリは、ユーザ関心情報中の第3の構成要素により記述されている概念が「bio-terrorism」(生物テロリズム)なる語句に関連するものであることと、WordNetレキシコン内で「bio-terrorism」及びこの語句から1リンク先にある同義語・類義語、上位語及び下位語の集まりによってこの概念が記述されることとを、表している。なお、ここではリンク数が指定されていないので、デフォルト値である1がリンク数として使用されている。
図11に、本発明におけるパッケージ化意味構造体について例1700を示す。例示したパッケージ化意味構造体1700は、図9に示した文(元々の章句)からエンコードしたパッケージ化XLEf表現意味構造体を含んでいる。このパッケージ化意味構造体1700においては、図9に示した文に関する二通りの解釈が選択肢C1 1710及びC2 1720によって示されている。1個目の選択肢C1 1710により表されている解釈は、この文では「Igor」が運んだ「dish」(皿)が「with」(〜を伴う)によって修飾されている、という解釈である。これに対して、2個目の選択肢C2 1720により表されている解釈は、この文は「Igor carrying the dish」(皿を運んでいるイゴール)が「culture of genetically altered plague」(培養した遺伝子改変型ペスト菌)に感染している、という文であるという解釈である。
例示したパッケージ化意味構造体1700では、ユーザ関心情報1600に含まれている構成要素「Igor Domaradsky」及び「plague」がハイライトされている。即ち、このように下線が引かれている構成要素は、ユーザ関心情報1600の構成要素となっているものであり、ユーザにとり最も関心がある情報である。パッケージ化意味構造体1700の構成要素のうち下線が引かれているものは、優先的に保持されるべき構成要素であり、またその保持に関してより高めの優先順位乃至登場頻度を付与しておくべき構成要素であるのに対して、下線が引かれていない構成要素は、圧縮、省略等の対象とすべき構成要素であり、また圧縮、省略等してもその章句のユーザにとっての適当性が意に反して削がれるとは言えないような構成要素である。
図12に、本発明における圧縮パッケージ化意味構造体について第1の例1800を示す。この図に示した圧縮パッケージ化意味構造体1800は、図10記載のXLEf表現意味構造体1600をエンコード・パッケージ化して得られた図11記載のパッケージ化意味構造体1700の全体に、何個かの要約変換子を適用することによって得られたものである。議論の簡明化のため、この図においては、要約変換子適用結果のうち2個目の選択肢C2 1720についてのもののみを示してある。この圧縮パッケージ化意味構造体1800においても、パッケージ化意味構造体1700においてと同様、ユーザ関心情報1600に含まれる構成要素「Igor」及び「plague」に下線が引かれている。即ち、このパッケージ化意味構造体1700の構成要素と、ユーザ関心情報1600内の対応する構成要素との字句レベルでの照合によって、マッチングしていると判別された構成要素である「Igor」及び「plague」に、下線が引かれている。例えばこういった構成要素がユーザ関心焦点要素と呼ばれる。なお、各種の照合(マッチング)技術を用い、ユーザ関心情報の構成要素とパッケージ化意味構造体1700の構成要素との間の照合の範囲、性格等を拡張できることも、また明らかであろう。
圧縮パッケージ化意味構造体1800を作成するにはパッケージ化意味構造体1700に要約変換子を適用すればよい。その際、上掲のようにユーザ関心情報1600との照合が行われるため、結果として得られる圧縮パッケージ化意味構造体1800は、ユーザが抱いている特定の関心事項に沿うよう指定章句(図9参照)に含まれる意味合いをコンパクトに詰め込んだものになり、またその指定章句の意味合いをよく表現したものになる。即ち、例えば、ユーザが語句「ancient」(古い)及び「fortress」(砦)に関心があることを既に示していた場合、要約変換子を適用することによって、結果として得られる圧縮パッケージ化意味構造体1800における語句「ancient」及び「fortress」の登場確率乃至登場頻度が高まる。更に、必須ではないが、意味歪曲制限子を要約変換子と併せて又はこれに組み込んで使用することにより、結果として得られる圧縮パッケージ化意味構造体1800にて指定章句からの意味歪曲が生じる確率が抑えられる。即ち、このようにすれば、指定章句から最尤推論、継承又は暗示された圧縮パッケージ化意味構造体1800から後に要約を作成したときに、その要約が指定章句の意味合いを歪曲したものになることは起こりにくく、又はそうなることを防止できる。
図中、符号D1 1810及びD2 1820で示されているのは2個の語句選択肢である。選択肢D1 1810には「dish」及び「culture」(培養物/培地)が含まれているが、ある種の要約変換子を適用すれば「dish」が含まれず「culture」が含まれるようにすることもできる。即ち、通常、容器とその中身を比べると中身の方が大切で容器にはさほど重点がないと認められることから、「containers」(容器)又はこれに類する語が含まれていたらそれを削除する、という要約変換子を使用するのが有効なことがある。この種の要約変換子を適用すれば、語句「containers of X」(Xの容器)は「X」に圧縮されXとして認識される。
図13に、本発明における圧縮パッケージ化意味構造体について第2の例1900を示す。この図に示した圧縮パッケージ化意味構造体1900は図12に示した圧縮パッケージ化意味構造体1800をよりコンパクトにしたバージョンである。即ち、省略した構成要素を示す白地のスペースを除去することによって、よりコンパクトにしてある。この圧縮パッケージ化意味構造体1900においては、ユーザ関心情報1600の構成要素との概念的類似性が高い構成要素が保存されており又は優先されている。即ち、パッケージ化意味構造体1700に含まれていた情報のうちユーザ関心情報1600に対応する情報はこの圧縮パッケージ化意味構造体1900でも保存されているが、非特徴的情報は削除されている。
削除されるのは、例えば、皿が門をどのようにして通り抜けたかを記述している情報である。即ち、削除される情報はユーザが明示的に示した関心を示す語句「Igor Domaradsky」及び「plague」(図10参照)にさほど関係がない情報である。その結果、この圧縮パッケージ化意味構造体1900から要約又はその候補として作成される情報は、指定章句の意味合いのうちユーザが関心を抱くであろう部分を保存している情報、例えば先に要約候補として例示した「Igor Domaradsky carried a dish with a culture of plague through the gates.」という情報となる。この例では、元々28語あった指定章句(図9参照)から、ユーザの関心を惹く13語から構成される要約(候補)が作成されている。
パッケージ化意味構造体1700におけるユーザ焦点要素の識別は、例えば、ユーザ関心情報1600の構成要素とパッケージ化意味構造体1700の構成要素とが字句的に同義かを調べることにより行うことができるが、パッケージ化意味構造体1700におけるユーザ焦点要素の関連付け・識別をコンセプトマッチング(概念照合)によって行うこともできる。例えば、「container」又はこれに類する構成要素に続くシンボル「*」はWordNetレキシコン内で当該構成要素並びに当該構成要素から1リンク先にある同義語・類義語、上位語及び下位語の集まりを示しており、また「*2」はその構成要素並びにその構成要素から2リンク以内にある同義語・類義語、上位語及び下位語の集まりを示している。このWordNetレキシコンに限らず、SUMO(suggested upper merged ontology)、サイク(cyc)等のレキシコンを単独で又は任意に組み合わせて使用すれば、ユーザ関心情報1600によって表されている概念を判別・識別することができる。また、構成要素間の統計的類似性を用いてマッチング度合いを判別することもできる。
図14に、本発明におけるユーザ関心情報格納用データ構造について第2の例2000を示す。このユーザ関心情報格納用データ構造2000のうち第1行は「[fortress*3]」なるエントリを含んでいる。このエントリは、「fortress」という特定の言葉により「fortress」の概念をどのように表現するかを示している。この概念を記述するには、やはり同義語・類義語、上位語及び下位語の集まりが併用される。この場合、シンボル「*」に続くリンク数が「3」であるから、語句「fortress」と共に概念記述に使用されるのは、WordNetレキシコン内で語句「fortress」から3リンク以内にあるものである。しかしながら、本発明の実施に使用できるレキシコンはWordNetレキシコンに限られてはおらず、既知のものも今後開発されるものも含め、概念を表現できる様々なレキシコン、オントロジ乃至システムであれば、それ単独で又は任意に組み合わせて、ユーザ関心情報の表現に使用することができる。
第2行は「[archaeology*]」なるエントリを含んでいる。このエントリは、ユーザが「archaeology」(考古学)なる語句に関心を抱いていることと、WordNetレキシコン内で語句「archaeology」及びそこから(デフォルト設定である)1リンク先にある同義語・類義語、上位語及び下位語の集まりがこの概念の記述に使用されることとを、表している。
第3行は「[bronze age*]」なるエントリを含んでいる。このエントリは、ユーザが「bronze age」(青銅器時代)という概念に関心を抱いていることを表している。この概念は、「bronze age」並びにWordNetレキシコン内で語句「bronze age」から(デフォルト設定である)1リンク先にある同義語・類義語、上位語及び下位語の集まりによって、定義される。
第4行は「[c:\user\abc\file_history]」なるエントリを含んでいる。このエントリは、歴史(history)に関するユーザの関心を規定する概念をファイル「c:\user\abc\file_history」から読み込むべきであることを表している(なお図中における逆スラッシュを明細書内では「\」で表す;以下同様)。
第5行は「[c:\use\abc\file_project1]」なるエントリを含んでいる。このエントリは、プロジェクト1に関連するユーザ関心情報を記述する概念語句をファイル「c:\use\abc\file_project1」から読み込むべきであることを、示している。ここで言うプロジェクト1とは例えば共同プロジェクトである。読出元とされているファイルは、逐次学習等により習得した語句等が記述されるファイル、即ちプロジェクトチームメンバーによる逐次修正乃至調整を受けるファイルである。このように概念語句を単一ファイル内に集めておくことにより、プロジェクトチームメンバーがグループ全体で他のメンバーとグループ的知識を共有することができる。
第6行は「-[container*2]」なるエントリを含んでいる。このエントリ中、「-」なる符号は、語句「container」はユーザが関心を否定した語句である、ということを表している。更に、この語句「container」にはシンボル「*2」が付されている。そのため、この「container」だけでなく関連概念もユーザ関心範囲から概念的に除外される。即ち、この語句「container」並びにこの語句から2リンク以内にある同義語・類義語、上位語及び下位語の集まりは、ユーザ関心範囲から概念的に除外されるか、或いはその荷重が下げられる。このようなエントリを有するユーザ関心情報2000が例えば図9に示した指定章句に適用された場合、図12で言えば選択肢D1 1810に当たる選択肢がなく選択肢D2 1820に当たる選択肢を含む圧縮パッケージ化意味構造体が、作成されるであろう。
本発明を実施するに際しては、特に指定乃至宣言しない限り、ユーザ関心情報格納用データ構造を構成する各行内に記載されている事項(定義乃至規定)を論理OR演算で結合させるよう、決めておくことができる。また、ユーザ関心依存ノートがユーザに対して表示される実施形態であれば、ユーザ関心情報を複数組判別決定しておきそれらに別々のタグ、別々の表示特性等を関連付けるようにしてもよい。図14に示したユーザ関心情報2000を例として言うと、ファイル「file_project1」内に記述されているユーザ情報に係るユーザ関心焦点要素を表示させる際には「project1」というタグを付けて全体に赤い色調で表示し、ファイル「file_history」内に記述されているユーザ情報に係るユーザ関心焦点要素を表示させる際には「history」というタグを付けて全体に黄色い色調で表示する等々、といった具合である。
また、ユーザ関心焦点要素のうちユーザ関心情報の構成要素との間に強い類似性を有しているものについては強調フォントで表示させ、さほど類似性のないものについては斜字体で表示させる、といった具合に、既知の又は今後開発される表示特性であって人間が感知識別できるものによって、区別して表示してもよい。このようにすることによって、ユーザが、テキストから作成された要約が自分の関心対象概念にどれだけ密接に関係しているかを、迅速に理解することが可能になる。なお、ここで言う表示特性とは、色、フォント、斜字修飾、強調修飾、音響、触感その他、人間が感知識別できる既知の又は今後開発される特性のことである(但しこれらに限られるものではない)。
図15に、本発明における意味歪曲制限子格納用データ構造について例2100を示す。この意味歪曲制限子格納用データ構造2100はパターン部2110及びアクション部2120を有している。パターン部2110に規定されている制限条件即ちパターン制限条件との照合により「マッチング」との結果が得られたら、対応する(即ち同じ行の)アクション部2120に規定されているアクションルールが発動される。
即ち、例示されている意味歪曲制限子格納用データ構造2100のパターン部2110第1行には「-DOWNWARD_MONOTONIC(P)」なる定義乃至規定が含まれている。「DOWNWARD_MONOTONIC(P)」は述語Pがダウンワードモノトニックであるという条件であり、その先頭に付されている文字「-」は否定を表しているから、このパターン制限条件「-DOWNWARD_MONOTONIC(P)」に「マッチングした」との照合結果が得られるのは、述語Pがダウンワードモノトニックでない場合である。テキスト内に含まれる述語がダウンワードモノトニックという性質を有しているかどうかを判別するには、例えば、XLEにて規定されている関数や、オントロジ若しくはレキシコン上におけるルックアップ操作等、既知の又は今後開発されるダウンワードモノトニック性(downward monotonicity)判別手法を使用すればよい。
例示されている意味歪曲制限子格納用データ構造2100のアクション部2120第1行には「CONDENSE_MODIFIERS(P)」なるリライトルールが含まれている。このリライトルールは、対応するパターン部2110にて規定されている制限条件に「マッチングした」という照合結果が得られたときに発動されるルールであり、このルールの適用によって述語Pの修飾語句が圧縮乃至要約化されるルールである。従って、この場合、ダウンワードモノトニックでない述語Pに対して修飾語句が圧縮乃至要約化されることとなる。このとき指定章句の一部たる述語P内で圧縮乃至要約化される修飾語句は、その圧縮乃至要約化ではその章句の意味合いが変化しないようなもののみである。
例えば、使用しているレキシコンにおいて「prevent」(防止する・妨げる)なる単語はダウンワードモノトニックであるが「cause」(引き起こす・原因となる)なる単語はダウンワードモノトニックでないとエンコードされているとする。指定章句が「the president prevented a long strike」(社長が長時間ストライキを防いだ)であるなら、「prevent」が含まれているためこの章句はダウンワードモノトニックであると判別されることとなり、従って意味歪曲制限子2100のパターン部2110第1行に規定されているパターン制限条件が満足されることはない。そのため、対応するアクション部2120に規定されているリライトルールは発動せず、従ってこの文内の修飾語句は圧縮も要約化もされないから、「the president prevented a strike」(社長がストライキを邪魔した)というように意味的に歪曲して要約されることは起こりにくい。これに対して、「cause」はダウンワードモノトニックでないからリライトルールが発動されるため、第1行にて規定されているパターン制限条件及びリライトルールだけでは、「the president caused a long strike」(社長が長時間ストライキの原因であった)が「the president caused a strike」(社長がストライキを起こさせた)に圧縮乃至要約化される可能性は低減できない。
次に、パターン部2110第2行には「PASSIVE(P),SUBJ(P,S),BY-OBJ(P,O)」なる定義乃至規定が含まれている。これは、ある述語Pが受動態で、主語Sを有しており、且つ目的語をOとするBY前置詞を有しているときに、その述語Pについて、対応するアクション部2120に規定されているアクションルールが発動されることを、表している。
アクション部2120第2行に含まれている定義乃至規定「SUBJ(P,O),OBJ(P,S)」は、対応するパターン部2110に規定されているパターン制限条件が満足されたときに、その文から受動態変化を除去して能動態に変形し、BY前置詞の目的語Oを主語にし、元々主語Sであった語を入れ替わりに目的語にする、というアクションルールを表している。従って、例えば「John was seen by Bill」(ジョンはビルに見られた)なる章句は「Bill saw John」(ビルはジョンを見た)に圧縮乃至要約化される。即ち、ここでは意味歪曲制限子を含む要約変換子によって、語句「was seen」(受動態)が語句「saw」(能動態)に変形され、且つ文内で主語と目的語とが入れ替えられており、しかも指定章句からの意味歪曲が回避されている。
図16に、本発明におけるユーザ関心依存自動ノート作成システム100用のユーザインタフェース2800での閲覧画面について第1の例を示す。このユーザインタフェース2800においては、テキスト部2500、ノートファイル部2600及びユーザ関心情報部2700が表示等されている。
テキスト部2500は、第1章句2510、第2章句2520、第3章句2530、第4章句2540及び第5章句2550を含んでいる。これらの章句2510〜2550は、例えば、ニュースワイヤサービス(広義にはインターネットを介した情報配信サービス)から配信された情報や、ウェブサーバから取り込んだウェブページ等、圧縮乃至要約化できる情報をもたらす情報源から入手したものである。ここでは、テキスト部2500に含まれる第5章句2550が、要約化すべきソーステキストとして選択されている。
ユーザ関心依存ノートファイル部2600は3個のユーザ関心依存ノート2610、2620及び2630を含んでいる。これらのうち、ユーザ関心依存ノート2610は先に第1章句2510が指定章句として選択されたときにその章句2510から自動作成されたノートであり、ユーザ関心依存ノート2620は先に第4章句2540が指定章句として選択されたときにその章句2540から自動作成されたノートであり、現在ハイライトされている第5章句2550に対応しているのはユーザ関心依存ノート2630である。これらユーザ関心依存ノート2610、2620及び2630は、それぞれ対応する要約部2611、2621又は2631を含んでおり、各ユーザ関心依存ノートをそれぞれ対応する章句部に関連付けることもできる(図では展開されていない)。また、要約部2611、2621及び2631を可選択ユーザインタフェース要素やリンクに関連付けるようにしてもよい。それら可選択ユーザインタフェース要素又はリンクを操作すれば、ユーザ関心依存ノート内の対応する章句部(但し必須ではない;図示せず)その他の部分を、表示させたり隠したりすることができる。
ユーザ関心情報はユーザ関心情報部2700に反映されている。ユーザ関心情報部2700には、ユーザが関心を抱いている概念や関心を抱いていない(関心を損ねている)概念に関する記述が含まれ得る。ユーザ関心情報部2700においては、概念を記述する語句を括弧で括り、その語句がユーザの肯定的関心対象概念についての記述であるなら括弧の前に文字「+」を冠し、否定的関心対象概念についての記述であるなら文字「-」を冠している。図示の例でユーザ関心情報部2700に含まれている概念記述2711〜2713には何れも「+」が冠されているからこれらは皆ユーザの肯定的関心対象概念を表すものである。同一の括弧の中に複数個の語句が括られている場合、それらの語句は暗黙的な約束に従い論理AND演算子で結合されており、文字「|」が入っている場合はそれらの語句は論理OR演算子で結合されている。
図示の例では、第2章句2520及び第3章句2530は、これまでのところ要約化の対象たる指定章句としては選択されておらず、従ってこれらの章句に係るユーザ関心依存ノートは作成されていない。これに対して、第1章句2510、第4章句2540及び第5章句2550は要約化、概要化され、それぞれ第1ユーザ関心依存ノート2610、第2ユーザ関心依存ノート2620又は第3ユーザ関心依存ノート2630が作成されている。
更に、ユーザ関心依存ノート部2700内に指示子文字「^」、「*」、「>」等を見出し乃至目印として付すようにしてもよい。例えば、文字「^」が付されているユーザ関心依存ノートをクリック等で選択することやそのユーザ関心依存ノートにマウスカーソルを重ね又はそのユーザ関心依存ノートからマウスカーソルを外すことによって、そのユーザ関心依存ノートに対応する章句又はこれに関する情報を展開表示させることができる。また、文字「*」はそのようにして表示された章句部の表示開始位置を表している。そして、文字「>」は、そのユーザ関心依存ノートに設定されているリンクを選択することによって更なる情報を表示等させることができることを表している。これらの指示子は次の図17に示されている。なお、これらの他にも様々な指示子を使用し更なる情報を表示等させることができる。
図17に、本発明におけるユーザ関心依存自動ノート作成システム100用のユーザインタフェース2800での閲覧画面について第2の例を示す。このユーザインタフェース2800においても、テキスト部2500、ノートファイル部2600及びユーザ関心情報部2700が表示等されている。
ユーザ関心依存ノートファイル部2600は3個のユーザ関心依存ノート2610、2620及び2630を含んでいる。これらのうち、ユーザ関心依存ノート2610は先に第1章句2510が指定章句として選択されたときにその章句2510から自動作成されたノートであり、ユーザ関心依存ノート2620は先に第4章句2540が指定章句として選択されたときにその章句2540から自動作成されたノートであり、現在ハイライトされている第5章句2550に対応しているのはユーザ関心依存ノート2630である。ユーザ関心依存ノート2610は対応する要約部2611を、ユーザ関心依存ノート2620は対応する要約部2621及び章句部2622を、ユーザ関心依存ノート2630は対応する要約部2631及び章句部2632を、それぞれ含んでいる。また、要約部2611、2621及び2631を可選択ユーザインタフェース要素やリンクに関連付けるようにしてもよい。それら可選択ユーザインタフェース要素又はリンクを操作すれば、ユーザ関心依存ノート内の対応する章句部(この例では2622や2632)その他の部分を、表示させたり隠したりすることができる。
ユーザ関心情報はユーザ関心情報部2700に反映されている。ユーザ関心情報部2700には、ユーザが関心を抱いている概念や関心を抱いていない(関心を損ねている)概念に関する記述が含まれ得る。ユーザ関心情報部2700においては、概念を記述する語句を括弧で括り、その語句がユーザの肯定的関心対象概念についての記述であるなら括弧の前に文字「+」を冠し、否定的関心対象概念についての記述であるなら文字「-」を冠している。図示の例でユーザ関心情報部2700に含まれている概念記述2711〜2713には何れも「+」が冠されているからこれらは皆ユーザの肯定的関心対象概念を表すものである。同一の括弧の中に複数個の語句が括られている場合、それらの語句は暗黙的な約束に従い論理AND演算子で結合されており、文字「|」が入っている場合はそれらの語句は論理OR演算子で結合されている。
図示の例では、第2章句2520及び第3章句2530は、これまでのところ要約化の対象たる指定章句としては選択されておらず、従ってこれらの章句に係るユーザ関心依存ノートは作成されていない。これに対して、第1章句2510、第4章句2540及び第5章句2550は要約化、概要化され、それぞれ第1ユーザ関心依存ノート2610、第2ユーザ関心依存ノート2620又は第3ユーザ関心依存ノート2630が作成されている。
本発明に係るユーザ関心依存自動ノート作成システムを実施するに当たっては、先にブロック図又はフローチャートにより示した回路及び処理を、汎用コンピュータに適当なプログラミングを施すことによって実現することができる。また、本発明に係るユーザ関心依存自動ノート作成システムを何個かの物理的に別体なハードウェア的構成要素乃至回路から構成すること、またそれら構成要素乃至回路のうち何個かをASIC(application specific integrated circuit)内に組み込むことやFPGA(field programmable gate array)、PLD(programmale logic device)、PLA(programmable logic array)又はPAL(programmable array logic)を用い構成することやディスクリートな論理素子乃至回路部品を用いて構成することも、可能である。どのような形態によって実現するかは専ら設計的な事項であり、本件技術分野における習熟者(いわゆる当業者)にとっては、これは、本願による開示から読みとることができ又は推察することができる事項である。
更に、本発明に係るユーザ関心依存自動ノート作成システム又はそれを構成する回路等は、それぞれ、ソフトウェアルーチン、マネージャ、オブジェクト等であって、然るべくプログラミングが施された汎用コンピュータ、専用コンピュータ、マイクロプロセッサ等の上で実行できるものとして、実現することができる。その場合、本発明に係るユーザ関心依存自動ノート作成システム又はそれを構成する回路等は、通信ネットワーク上例えばサーバ上にあるリソースに配置又は分散された1個又は複数個のルーチンとして、実現することもできる。本発明に係るユーザ関心依存自動ノート作成システム又はそれを構成する回路等は、更に、ソフトウェアシステムやハードウェアシステム、例えばウェブサーバ又はクライアントデバイス内に当該ユーザ関心依存自動ノート作成システムを実体的に組み込んだ形態で、又はそういったシステムに組み込めるプログラムコードを格納しているコンピュータ可読記憶媒体という形態で、実現することもできる。
更に、図5及び図7に示したメモリ20及び30は書換可能型、書換不能型又は固定型の揮発性又は不揮発性メモリにより実現することができる。
図1、図5及び図7に示した通信リンク99としては、本発明に係るユーザ関心依存自動ノート作成システム又はユーザ関心依存自動要約作成システムに通信装置を接続可能な装置乃至システムであれば、既存の又は今後開発されるどのような装置乃至システムを用いてもよい。また、以上の説明においては自動ノート作成に係るシステムを例示したが、本発明は自動要約作成に係るシステムとして実現することができる。
100 ユーザ関心依存自動ノート作成システム、700,1600,2000,2700 ユーザ関心情報、800 要約変換子、850,2100 意味歪曲制限子、900 構文解析部、1000,1001,2500 テキスト、1100 変換部、1400 要約候補作成部、1500,2600,2610,2620,2630 ユーザ関心依存ノート、1700,1800,1900 意味構造体、2200 構文解析文法、2300 生成文法、2510〜2550 章句、2611,2621,2631 ユーザ関心依存ノートの要約部、2622,2632 ユーザ関心依存ノートの章句部。