JP2005222263A - 用語閲覧型情報アクセス支援システム - Google Patents

用語閲覧型情報アクセス支援システム Download PDF

Info

Publication number
JP2005222263A
JP2005222263A JP2004028796A JP2004028796A JP2005222263A JP 2005222263 A JP2005222263 A JP 2005222263A JP 2004028796 A JP2004028796 A JP 2004028796A JP 2004028796 A JP2004028796 A JP 2004028796A JP 2005222263 A JP2005222263 A JP 2005222263A
Authority
JP
Japan
Prior art keywords
term
terms
context
data
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004028796A
Other languages
English (en)
Inventor
Yoshiki Niwa
芳樹 丹羽
Asako Koike
麻子 小池
Toru Hisamitsu
徹 久光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2004028796A priority Critical patent/JP2005222263A/ja
Publication of JP2005222263A publication Critical patent/JP2005222263A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】大量の専門用語が生産される分野において、専門用語辞書を最新状態にメンテナンスするために、大規模テキスト集から網羅的に収集された大量の用語を効率的に閲覧できるようにすること。
【解決手段】関連用語検索手段P11,類似用語検索手段P12,語構成上の同族用語の階層的閲覧手段P12,出現文脈一覧作成手段P14の連携動作による。
【効果】関連用語の同族用語、類似用語の同族用語というように多様な周辺語彙を網羅的に情報収集できるようになり、専門辞書への新語登録などメンテナンス作業が効率化される。
【選択図】図2

Description

本発明は、大規模かつ分野特異性の高い文書データからの情報獲得を効率的に支援するためのガイダンス機能を実現するための対話的なユーザインタフェースに関する。
従来用語の閲覧手法としては、電子媒体である無しを問わずシソーラスの利用が一般的であり、ある用語を中心にして、上位・下位概念に相当する用語、同義語、反意語、関連語などを調べることができる(非特許文献1:p.294)。一方、語の出現状況を調べるという観点からは、KWICに代表されるように、用語のテキスト中での実際の使用状況を前後の文脈を伴って一覧形で示すものがある(非特許文献1:p.177)。またその発展形として、主として辞書編簒作業者が語の使用状況(文脈)を調べるために、出現文脈の構文構造を指定して語の出現状況を閲覧できる方法も考案されている(非特許文献2)。なおこうしたシソーラス機能とKWIC機能を連携させた用語閲覧の手法として紙媒体ではあるが、岩波書店刊『情報科学辞典』(非特許文献1)の索引システムがある。
電子的な手法による関連用語の閲覧方法としては、ある用語を指定してその用語と話題としての関連度が高い用語を大規模テキスト中での共起度の高い用語として抽出している手法が考案されている(特許文献1〜5)。また、単語間の類似性を判定する手法についてはこれまでにも考案されている(特許文献6〜11)。
特開2003−167894「関連語自動抽出方法、関連語自動抽出装置、複数重要語抽出プログラムおよび重要語上下階層関係抽出プログラム」
特開平11−96177「用語辞書生成方法および用語辞書生成プログラムを記録した記録媒体」 特開平10−207910「関連語辞書作成装置」 特願2001−147719「用語抽出装置と用語抽出方法及びそのプログラムを格納した記憶媒体」 特開2001−67356「語彙獲得方法、語彙獲得装置及び語彙獲得プログラムを記録したコンピュータ読み取り可能な記憶媒体」 特願平10−12530「未知語概念推定方法、未知語概念推定装置及び未知語概念推定処理プログラムを記録したコンピュータ読み取り可能な記録媒体」 特開2001−331515「単語シソーラス構築方法及びコンピュータシステムに単語シソーラスの構築を行わせるためのコンピュータソフトウエアプログラム製品」 特開2000−231572「名詞シソ−ラスへの未知語登録方法、その装置及び未知語登録プログラムを記録した記録媒体」 特開2000−148762「動詞クラスタリング装置および方法と動詞クラスタリングプログラムを記録した記録媒体」 特開平11−143875「単語自動分類装置及び単語自動分類方法」 特開2000−137718「単語の類似性判別方法および単語の類似性判別プログラムを記録した記録媒体」 「情報科学辞典」、岩波書店、1990年 「A Computational Lexicographer’s Workbench、The Eighth EURALEX International Congress on Lexicography」、1998年、pp.195−202
医学・生物学分野などでは分子生物学の急速な進展に伴い遺伝子名やタンパク質名などの専門用語が大量に生まれ、専門家でも少し専門からはずれると情報の収集や整理に困難を来す事態となっている。一方、自然言語処理技術などを用いて自動的、あるいは半自動的に、論文などの技術文献データから生物学的な知識(生体内分子間の相互作用など)を抽出してデータベース化しようという試みがなされているが、そのような目的のためにも、専門用語の辞書を常に最新に保たなければならないという要請がある。しかしながら辞書のメンテナンス作業は完全に自動化することは困難であり、最終的な判断はあるレベル以上の専門知識を有する人間によって行われる必要があり、人的コストがかかる上、またその作業を担当する人にとっては相当の忍耐のいる仕事になっている。こうした作業にあたる作業者がより少ない負担で効率的に新しい専門用語を収集、アップデートできるためのワークベンチが求められている。本発明が解決しようとする課題は、上記のような専門用語辞書メンテナンス作業をより効率的に行うようにでき、作業者の負担を軽減することにある。
背景技術にあるように、ある用語を中心として、その関連用語(話題を共有し、同一文書中に共出現する度合の高い語)や意味的な類似度の高い語を自動的に検索する手法についてはこれまでにも考案されている。しかし関連用語の他に同族用語(語構成の根幹部分が共通で、修飾語句のみの異なる一連の用語群)を含めて網羅的に閲覧できる手法については考案されていない。医学・生物学分野など専門性が高くかつ急速に進歩する分野では、代表的な用語を中心として非常に多数の同族用語があるため、それらを含めて効率的に閲覧できる仕組みが不可欠である。
また背景技術にあるように、意味的に類似した用語を大規模なテキストデータから自動的に抽出する手法については考案されているが、その類似性の根拠となる定量的なデータを提示する手法については考案されていないため、ユーザーとしては何故そのような結果が類似用語として返されたのかを理解することが困難である。
専門用語の辞書を常に最新最適の状態に保つ(新用語の追加など)という辞書メンテナンス作業の負担を軽減するために、着目する用語を中心にしてテキスト(論文など)中に出現する用語を効率的にかつ洩れなく閲覧できるようにする手段として、(話題共有度の高い)関連用語、(意味クラスが近い)類似用語、(語構成が類似した)同族用語というように多面的に関係する周辺用語を検索して分析できるシステムを提供する。
関連用語の検索機能を実現するためには、(多数の)文書データを対象として与えられた用語を含む文書を検索し、その検索結果の文書群に対して、文書群から特徴用語を特徴度順に抽出する連想計算法(特開2000−155758「複数文書データベースを対象とした文書検索方法および文書検索サービス」および特開平9−62693「確率モデルによる文書分類方法」における概略作成機構)を適用する。
類似用語の検索機能を実現するためには、すべての用語について、その用語が文書データベース中で出現する文脈パターン(「どの動詞の目的語(主語)となっている」や「次の名詞Yと前置詞Pで結ばれている」など)とそのパターンの出現頻度の束で表現することにより、用語のプロファイルテキストを作り、そのプロファイルテキストを検索対象として、上記特開2000−155758などにおける連想検索手法を適用して類似プロファイルを持つ用語を検索する。
意味的に類似した用語を検索して提示する際に、その類似性の根拠となる情報を提示するために、検索された結果の類似用語のプロファイルテキスト群を入力として、上記と同様の連想計算法を適用して特徴文脈パターンを特徴度順に抽出し、類似性の根拠となる共通性としてこれらの文脈パターンを提示する。
同族用語の検索および閲覧機能(ターム・バリエーション・ビュー)を実現するためには、多数の文書データを句構造分析フィルターなどを通して用語(複数単語からなるものも含む)の出現部分を抽出し、異なる用語の全体を得る。さらに各用語をそれを構成する単語により索引づけを行い、構成単語で検索できるようにする。またこの検索結果は一般に非常に多数になるため(生物学分野では特にその傾向が強い)、見やすく表示するための手段として、検索結果を語構成上の包含関係による木構造で階層化し、ある用語を中心として、その親や子のノードにあたる用語を適切な範囲で表示する。
ある用語の周辺情報として、関連用語や類似用語を検索した際に、検索された用語のそれぞれの同族用語も簡単に調べられるように、関連用語や類似用語の表示部をそれぞれの用語を中心とする同族用語を検索する機能を持たせたアンカーとして、簡単な操作で関連用語の同族用語、また類似用語の同族用語まで調べられるようなインタフェース機能を提供する。
なお、上記閲覧システムにおいてはそれぞれの用語を中心とする元文書中での出現文脈を調べるためのKWIC(キーワード・イン・コンテクスト)機能も合わせて提供し、さらには、それぞれの文脈に対して、その元文書が簡単に参照できる機能も提供する。
本発明のシステムのユーザは、関心を持った用語に関してその周辺の用語(すなわち、意味的に類似した用語群、また話題としての関連性の高い用語群、また修飾語の付加、置換したものなど語構成的に共通性の高い用語群など)をそれぞれの用法も含めて調べることができるので、辞書のメンテナンス作業(新語の追加など)の作業をより少ない労力でかつ精度よく(漏れなく)行うことができる。
関連用語や類似用語を探した後に、それぞれの関連用語を中心として同族用語を網羅的に表示してそれらの出現文脈と共に調べることができるので、洩れのない調査を行うことができる。
また類似用語を検索した際には、得られた類似用語群に共通する文脈パターンが提示されるので、何故それらの用語が類似しているかを理解しながら作業を進めることができる。
以下に、本願発明を実施するための実施例を説明する。
図1は用語閲覧型情報アクセス支援システムの構成である。用語閲覧型情報アクセス支援システムは一般にはクライアント側計算装置C、サーバー側計算装置S、および通信ネットワークNより構成される。クライアント側計算装置とサーバー側計算装置が同一計算装置であって通信ネットワークを必ずしも用いない構成も可能である。必要に応じて印刷装置Prnも用いる。
クライアント側計算装置Cは演算手段C1、主記憶手段C2、補助記憶手段C3、入力手段C4としてのキーボードC41やマウスC42、さらに表示手段C5などから構成される。主記憶手段C2ではクライアント管理手段P01が稼働し、表示手段C5上にGUI1が表示されると共に、クライアント側計算装置Cにおける処理の全体を統括する。
サーバー側計算装置S側も同様に演算手段S1、主記憶手段S2、補助記憶手段S3、キーボードS41、マウスS42および表示手段S5などから構成される。サーバー側計算装置Sの主記憶手段S2では、本システムの実施に必要な処理手段類が稼働する。(それらは次の図2にて詳細を示す。)これらの処理は一時的なデータを確保する一時データ2として、検索要求21、重み付きテキストリスト22、重み付き用語リスト23などを主記憶手段S2上に動的もしくは固定的に確保して利用する。
サーバー側計算装置Sの補助記憶手段S3には、本システムの実施に必要な一次データ4となるべきテキストデータ41や、それから加工されて上記各種処理で参照される二次加工データ群3が格納される。
図2はサーバー側計算装置における処理手段の全体構成である。サーバー側計算装置Sにおける処理の全体を統括するのがサーバー側管理手段P02であり、それから直接に呼び出されるのが、関連用語検索手段P11, 類似用語検索手段P12,タームバリエーション作成手段P13, および出現文脈一覧作成手段P14である。さらにその下の要素的な処理手段として用語による文書検索手段P21, 文書集合に対して特徴的な用語を関連づける手段P22,用語集合に対して特徴的な文脈パターンを関連づける手段P23, 文脈パターンの集合に対して特徴的な用語を関連づける手段P24,単語列に対してそれを構成上包含する用語全体を検索する手段P25,用語階層化手段P26, および 文脈抽出整列手段P27がある。さらに最下層の要素的処理手段として連想計算手段P31およびブーリアン検索手段P32を用いる。なお、連想計算手段とブーリアン検索手段の両方の機能を同時に持つものも可能なので、それを両者の代わりに用いても良い。
図3はサーバー側計算装置における二次加工データの全体構成である。用語−文書索引31(各用語にそれを含む文書群を頻度と共に対応付けたデータ),文書−用語索引32(各文書にそれが含む用語群を頻度と共に対応付けたデータ),用語−文脈パターン索引33(各用語にそれが出現する文脈パターン群を頻度と共に対応付けたデータ),文脈パターン−用語索引34(各文脈パターンにそのパターンで出現する用語群を頻度と共に対応付けたデータ),単語−用語索引35(各単語にそれを構成上含む用語群を対応付けたデータ)などから構成される。
図4は用語閲覧支援を行なうユーザインタフェースの一例である。GUIの主画面11はデータセット選択部111, 検索要求入力部112, 検索モード(関連語か類似語か)選択部113, 検索数などのパラメータ設定部114, 結果表示部115および検索実行ボタン116などから構成される。データセット選択部111 では用語を探索するテキストDBを選択できるようにする。生物学分野では、生物種類ごとに分けて比較検討することも重要なので、例えばデータ1はヒトに関する論文群、データ2はラットに関する論文群、データ3はショウジョウバエに関する論文群、というようにすることなどが考えられる。なお、データセットの選択は複数選択することが可能であり、その場合の検索結果は選択されたデータセットごとに縦または横に並べて表示する。
検索数などのパラメータ設定部114 では関連用語検索や類似用語検索での結果表示個数、また類似用語検索の場合には特徴文脈パターンの表示個数も指定できるようにしておく。なお、関連用語検索では、複合語と単語を分けて表示することも有効なので、そのような表示をオプションで選択できるようにしておくこと、また複合語の個数と単語の個数の指定ができるようにしておくことも有力である。以下の関連用語検索の例では複合語と単語に分けて表示するオプションを選択した場合を示す。関連用語検索で複合語と単語に分けて表示したり、類似用語検索で類似用語と特徴文脈パターンを併せて表示する場合など、結果表示部115は、複数の領域に区切って表示した方が便利な場合も多い。その際の(最初の)画面分割を左右(縦分割)にするか上下(水平分割)にするかを指定できるようにしておいても良い。以下の例では左右分割の方を選択している。
以下、図5「関連用語を検索した時の画面推移の一例」と図6「関連用語を検索した時の処理の流れを示すフローチャート」に従い、関連用語検索イベントの一例(E1)を説明する。図6において、左のラインがユーザー操作の流れ、中のラインがクライアント側計算装置での処理の流れ、右のラインがサーバー側計算装置での処理の流れを示している。関連用語検索では、はじめにユーザの操作(E11)として主画面11のデータセット選択部111(図5)においてデータセットの選択操作(図6 E111)を行い、続いて検索要求入力部112からクエリーの入力操作(E112)を行い、検索モード(関連語か類似語か)選択部113において関連用語検索の選択操作(E113)を行い、検索数などのパラメータ設定部114においてパラメータ値の設定操作(E114)を行い、検索実行ボタン116を押して検索実行の指示操作(E115)を行う。
それを受けてクライアント管理手段P01は要求の種類が関連用語検索であること、検索クエリー、パラメータ類等をLANやインターネットなどの通信ネットワークN(図1)を通じてサーバー側計算装置Sで稼働しているサーバー側管理手段P02に伝える(E12)。クライアント側計算装置とサーバー側計算装置が同一の場合にはプロセス間通信などによって伝える。サーバー側管理手段P02(図6の右のライン)は受け取った作業要求に基づき、関連用語検索手段P11 に検索クエリーを与えて結果となる関連用語の重み付き用語リストを得る(E13,E14)。それを再びネットワークやプロセス間通信によりクライアント管理手段P01に伝える(E15)。クライアント管理手段P01では返ってきた関連用語の重み付き用語リストを結果表示部115(図5)に表示する(E16)。その状態を示したのが図5の下の図である。この場合には関連用語を複合語と単語に分けて結果表示するオプションを指定しているので、結果表示部の左側には関連複合語、右側には関連単語が表示されている。なお各関連用語の左側にtvvという文字列がアンカーとして表示されているが、これはそれぞれの用語を単語列として包含する用語全体(同族用語群)の階層的ビューア(ターム・バリエーション・ビュー)を呼び出すためのものである。(詳細は図12,図13およびその説明箇所参照)。
図7は関連用語検索手段P11が行う処理の詳細である。前図6における関連用語検索手段P11による処理部分を詳細化したものである。処理は用語による文書検索手段P21による処理と文書集合に対して特徴的な用語を関連づける手段P22による処理の直列で構成される。前半の用語による文書検索手段P21による処理では、与えられた用語を含むことを検索条件として、索引データとして「用語−文書索引」にブーリアン検索手段P32が適用され、上記用語を含む文書の集合が得られる。引続き、文書集合に対して特徴的な用語を関連づける手段P22による処理に移り、得られた文書集合を入力として、今度は索引データとして「文書→用語索引」に対して連想計算手段P31が適用され、上記文書集合に統計的有意に頻度高く現れる用語がスコア(有意の度合)順に出力される。なお関連語検索では検索要求に対して文書群を検索する部分でブーリアン検索手段P32を利用するため、検索要求は用語をブール結合したものに対応することができる。検索要求として一つまたは複数の単語のOR結合だけに対応すれば良い場合には用語による文書検索手段P21においてブーリアン検索手段の代わりに連想計算手段P31を用いても良い。
文書群から特徴用語を特徴度順に抽出するには連想計算法(特開2000−155758「複数文書データベースを対象とした文書検索方法および文書検索サービス」および特開平9−62693「確率モデルによる文書分類方法」における概略作成機構)を適用することができる。また特開2002−157273「確率を用いた特徴単語の選択方法」の方法を適用することも有力である。さらにまた特開平8−161343「文献検索方法及び装置およびこれを用いた文献検索サービス」記載の特徴語抽出ルーチンを適用することができる。この場合には頻度クラスによる特徴用語の分類がなされるので、表示もそれに従って頻度クラスごとに分けて表示するのが有効である。
以下、図8「類似用語を検索した時の画面推移の一例」と図9「類似用語を検索した時の処理の流れを示すフローチャート」に従い、類似用語検索イベントの一例(E2)を説明する。図9において、左のラインがユーザー操作の流れ、中のラインがクライアント側計算装置での処理の流れ、右のラインがサーバー側計算装置での処理の流れを示している。類似用語検索E2におけるユーザの操作(E21)で関連用語検索(図6)の場合と異なるのは検索モード(関連語か類似語か)選択部113(図8)において類似用語検索の選択操作(E213)を行うことである。その他必要に応じて検索数などのパラメータ設定部114において類似用語の表示個数や特徴文脈パターンの表示個数などを指定する(E214)。
検索実行ボタン116を押して検索実行の指示操作(E215)を行うとクライアント管理手段P01は要求の種類が類似用語検索であること、検索クエリー、パラメータ類等をLANやインターネットなどの通信ネットワークN(図1)を通じてサーバー側計算装置Sで稼働しているサーバー側管理手段P02に伝える(E22)。クライアント側計算装置とサーバー側計算装置が同一の場合にはプロセス間通信などによって伝える。サーバー側管理手段P02(図9の右のライン)は受け取った作業要求に基づき、類似用語検索手段P12 に検索クエリーを与えて結果となる類似用語の重み付き用語リストとそれらの類似性を特徴付ける文脈パターンの重み付き重み順リストを得る(E23,E24)。それを再びネットワークやプロセス間通信によりクライアント管理手段P01に伝える(E15)。クライアント管理手段P01では返ってきた類似用語の重み付き用語リストを結果表示部115(図8)に表示する(E26)。その状態を示したのが図8の下の図である。図で結果表示部115の左側には類似用語、右側に特徴文脈パターンをそれらの重みと共に表示している。
図10は類似用語検索手段P12が行う処理の詳細である。前図9における類似用語検索手段P12による処理部分(E24)を詳細化したものである。処理は用語集合に対して特徴的な文脈パターンを関連づける手段P23による処理と文脈パターンの集合に対して特徴的な用語を関連づける手段P24による処理の組合せで構成される。
詳細説明に進む前に類似用語検索の原理について説明をしておくことにする。一般に類似文書検索では文書をクエリーとして類似文書を検索する。その場合、文書を構成する単語の頻度分布の数学的な類似度(ベクトルとしての角度のコサインなど)を用い、類似度の高い順にソートして必要とされる個数の上位を出力する。ここでは、意味的に類似した用語を検索するのであるから、類似文書検索における文書に相当するものが用語となる。その際、文書の単語に相当するものが、用語に対しては何にするかが問われることになるが、本方式ではそれをその用語がテキスト中に出現する文脈パターン(あるいはコロケーション)とする。すなわち、名詞であればどのような動詞の目的語として使われているあるいは、別の名詞Nと前置詞Pを介してN−P−Xのような形で使われている、というようなものの束であると考える。
これによって意味的に近い用語が検索される根拠は、文脈パターンを共有する用語どうしは意味的に近いと考えられるからである。このことは例えば飲物であれば動詞「飲む」の目的語として使われているという局所文脈を共有することなどから自然である。類似文書検索の原理は、共有する単語が多いほど内容的に類似した文書である可能性が高いというものであるから、それをこの場合にも応用することができるという考え方に基づく手法である。
図10の説明に戻る。はじめにクエリーとして与えられた用語を、形式的に連想計算手段への入力となる連想リスト形式に変換する処理(E240)を行い、クエリー用語を連想リスト形式にしたものE24D1を得る。(以下、データの具体的な例については次の図11に示す。)次に用語集合に対して特徴的な文脈パターンを関連づける手段P23による処理(E241)に進み、そこでは用語−文脈パターン索引33を索引データとして連想計算手段P31を使い、上で得られたクエリー用語を連想リスト形式にしたものE24D1の入力に対して、クエリー用語を特徴づける文脈パターンの連想リストE24D2が出力される。用語−文脈パターン索引33の例は後ろの図21に示し、該当箇所にて説明している。またそのデータの作り方についても図22以下に示し、該当箇所で説明している。
次に文脈パターンの集合に対して特徴的な用語を関連づける手段P24による処理(E242)に進み、そこでは文脈パターン−用語索引34を索引データとして連想計算手段P31を使い、上で得られたクエリー用語を特徴づける文脈パターンの連想リストE24D2の入力に対して、クエリー用語の類似用語の連想リストE24D3が出力される。これによりクエリー用語と出現する文脈パターンの共有度の高い用語のリストすなわち意味的な類似度の高い用語のリストが得られる。
さらにもう一度用語集合に対して特徴的な文脈パターンを関連づける手段P23による処理(E243)が行われ、用語−文脈パターン索引33を索引データとして連想計算手段P31を使い、上で得られたクエリー用語の類似用語の連想リストE24D3の入力に対して、クエリー用語の類似用語を特徴付ける文脈パターンの連想リストE24D4が出力される。
図11はクエリーとしてkinaseという用語が与えられた場合の類似用語検索手段P12が行う処理の各段階で生成されるデータの例である。はじめにクエリー用語を連想リスト形式にしたものE24D1が生成される。次に生成されるのがクエリー用語を特徴づける文脈パターンの連想リストE24D2で、重みを伴った文脈パターンのリストであり、重みの降順にソートされている。次がクエリー用語の類似用語の連想リストE24D3で、重みを伴った用語のリストであり、重みの降順にソートされている。最後がクエリー用語の類似用語を特徴付ける文脈パターンの連想リストE24D4で、重みを伴った文脈パターンのリストであり、重みの降順にソートされている。
次に図12「関連用語検索結果の画面において着目した用語に対してターム・バリエーション・ビュー(その用語を単語列として包含する用語全体を構成単語列の包含関係で階層化して示す手段)を適用した時の画面推移の一例」と図13「関連用語検索結果の画面において着目した用語に対してターム・バリエーション・ビューを適用した時の処理の流れを示すフローチャート」に従い説明する。以下では指定された用語を単語列として包含する用語全体を構成単語列の包含関係で階層化して示す手段をターム・バリエーション・ビューと呼ぶことする。
はじめにユーザー操作として主画面11の結果表示部115(図12)に表示されている用語群の中から着目すべき用語を選択する。関連用語の表示画面では、各用語を表示している所自体、もしくはその近辺にその用語を中心とするターム・バリエーション・ビュー を表示するためのリンクが表示されるようにする。本例では各関連用語の左にあるtvvという文字列部分がそれに当たる。それをクリックするとその用語の ターム・バリエーション・ビュー が表示される(図12の上から2段目)。なお、表示された用語で下線が施されているものは、さらにそれを包含するような用語があることを示しており、それをクリックすることにより、その用語を中心とするターム・バリエーション・ビュー が表示することができる(図12の上から3段目)。ターム・バリエーション・ビューを階層的な表示手段というのはこのためである。さらにこの操作を繰り返したのが4段目である。すなわち3段目のgrowth factor receptor tyrosine kinaseを選択した結果それを含むものが表示されている。4段目の各用語はリンクになっていないが、それはこれらより長い用語(真に包含する用語)がもはや無いことを意味している。
2段目以下ターム・バリエーション・ビューの表示画面において、各用語の左にあるctxvという文字列部分は、その用語の出現文脈一覧表示機能を呼び出すためのアンカーになっている。(図16、図17およびそれらの説明箇所を参照)。
以下では、図13に従い、用語を指定するためのクリック動作が行われてからターム・バリエーション・ビューの結果が表示されるまでのシステムの動作について説明する。中心用語の指定操作(E31)を行うと、クライアント管理手段P01は指定された用語を中心とするターム・バリエーション・ビューを適用せよという指示を感知し、その指示をパラメータ類などと共にサーバー側管理手段P02に伝える(E32)。サーバー側管理手段(図6の右のライン)は受け取った作業要求に従い、タームバリエーション作成手段P13 に中心となる用語を与えて結果となるタームバリエーションデータを得、結果をクライアント管理手段P01に返す (E33, E34)。(この間の処理の詳細は次の図14に示す。)クライアント管理手段P01では返ってきたタームバリエーションデータを結果表示部115(図12)に表示する (E35)。
図14はタームバリエーションデータ作成処理の詳細である。初めに単語列に対してそれを構成上包含する用語全体を検索する手段P25による処理E341で、該当する用語族(E34D3)が検索され、次に用語階層化手段P26による処理E342でそれらが階層構造化される。単語列に対してそれを構成上包含する用語全体を検索する手段P25による処理E341では最初に中心となるべき用語(E34D0)を構成する各単語をアンドで連結した検索要求(E34D1)が構成される。この検索要求に対して、ブーリアン検索手段P32を単語−用語索引35を索引データとして適用し、検索条件を満たす用語のリスト(E34D2)を得る。しかしこの段階では、例えば中心用語が X Y である場合に Y X という逆順に含むものも含まれているので、そのようなものを排除するフィルターを通して、指定された用語の指定された用語を単語列として包含する用語全体を得る。続いて用語階層化手段P26による処理E342により、これらを構成用語の包含関係で階層化が行われる。
図15はタームバリエーションデータ作成の過程で生成される一連のデータの例である。ここでは、中心となる用語として”tyrosine kinase”が指定された場合のデータの例になっている。最初にこの用語を構成単語に分解して論理結合子AND(&)で結合した検索要求(E34D1)として”tyrosine & kinase”が生成され、それを用いて用語の検索が行われる。さらに逆順(この場合には余り考えずらいが kinase, tyrrosine の順に用語が構成されるもの)を除いたもの(E34D3)が2段目である。用語ID,用語,頻度などから構成される。さらに、用語階層化手段P26による処理E342を通して階層化したデータ(E34D4)が3段目である。ここでは、「深さ」の項目が加わっており、階層の何段目であるかを示している。トップは深さ0としている。最初の方について見ると、トップの”tyrosine kinase”の直下に”receptor tyrosine kinase”と”tyrosine kinase receptor”があり、”receptor tyrosine kinase”の下には”receptor tyrosine kinase/Ras”と”growth factor receptor tyrosine kinase”があることを示している。またさらに”growth factor receptor tyrosine kinase”の下には”fibroblast growth factor receptor tyrosine kinase”と”epidermal growth factor receptor tyrosine kinase”があることを示している。階層化されたデータに関する注意として、同じ用語が複数回現れることがある。すなわち A B を中心用語とした場合、 X A B Y という用語は X A B の子供としても A B Y の子供としても扱われるので2度出現することになる。
階層が深い場合には図12の2段目に示したように、深さ1のものまでを表示した方が見やすい場合が多い。図の3段目4段目に示したように、深い所(長い用語)はより短い構成から段々に辿る(3段目、4段目を得る操作の繰り返し)ことにより容易に閲覧が可能である。図12の2段目から3段目、さらに3段目から4段目では、このように中間ノードに対してそれよりも下にある用語を表示することにより(すなわち再検索しなくても)実現することができる。
次に図16「ターム・バリエーション・ビューの表示画面において着目した用語の出現文脈一覧を表示させる時の画面推移の一例」および図17「その処理の流れを示すフローチャート」を用い出現文脈一覧表示のプロセスを説明する。はじめにユーザー操作として図16における主画面11の結果表示部115に表示されているターム・バリエーション・ビューの結果中から着目すべき用語を選択する。
ターム・バリエーション・ビューの結果表示画面では、各用語を表示している所自体、もしくはその近辺にその用語を中心とする出現文脈一覧表示を表示するためのリンクを表示されているようにしておく。本例では、各用語の左にctxvという文字列部分がそれに当たる。このリンク(もしくはボタン)がクリック操作などで指示されると、次の図17にあるように、クライアント管理手段P01は指定された用語を中心とする出現文脈一覧を表示せよという指示を感知し、その指示をパラメータ類などと共にサーバー側管理手段P02に伝える(E42)。サーバー側管理手段P02は受け取った作業要求に従い、出現文脈一覧作成手段P14 に中心となる用語を与えて結果となる出現文脈一覧データを得、結果をクライアント管理手段P01に返す(E43,E44)。クライアント管理手段P01では返ってきた出現文脈一覧データを結果表示部115(図16)に表示する(E45)。その状態を示したのが図16の下の部分である。
図16の下にあるように、指定された用語を含む文書のタイトルなどが初めに表示され、それに続いて、その文書にその用語が出現する箇所が前後の文脈と共に表示される。その際に、その着目している用語の横位置が揃うように表示すると見やすい(KWICの標準的な結果表示手法)。なお出現文脈一覧表示は表示すべき量が一般に多くなり、また一文脈はなるべく一行に表示される方が可読性にすぐれるので、主画面とは別のウィンドウに表示できるようにした方が良いと考えられる。もちろん表示デバイスによってはサイズなどの問題などから主画面内に表示した方が良い場合もあるので、設定によって方式が選択できるようにしておくことが望ましい。また出現文脈一覧表示では、その用語が出現する各文書のID番号などの表示部をリンクにしておき、それをクリックすると元文書を参照できるようにしておくのが便利である。図の例では 93241315 や 94185639 が文書のID番号であり、それらが元文書へのリンクとなっている。
図18は出現文脈一覧作成処理の詳細であり、図19はその過程で生成される一連のデータの例である。指定された用語(E44D1)を検索要求としてブーリアン検索手段P32を用語−文書索引31を索引データとして適用し、指定用語を含む文書のリスト(E44D2)を得る。この際に、タイトルと併せて発行時期などが特定できる場合にはそれらも併せて取得する。それにより文献を新しいものから順に(あるいは逆に古いものから順に)示すこともできるようになる。続いて、文脈抽出整列手段P27が起動され、図19の三段目に相当する出現文脈データ(E44D3)が得られる。出現文書ID, 前文脈, 出現箇所の表記, 後文脈などから構成され、出現箇所の表示横位置を揃えて表示することが可能である。なお、出現部分の表記情報が必要な理由は、例えば複数形になっていたり、小文字を大文字で表記している文字があるなど表記の微妙な揺れがある場合があるからである。
図20は索引データ群を作成するための処理手段の構成例である。用語の文脈パターンによる索引データを作成するためのツールとして句列化手段P41,局所文脈抽出手段P42,文脈パターンへの展開手段P43, および索引作成手段P44などを用い、また汎用的な手段として逆引索引作成手段P45を用いる。(サーバー側計算装置Sの処理手段Pの内、既に図2に示したものは本図では省略している。)
図21は用語の文脈パターンによる索引データの一例である。用語の文脈パターンによる索引は各用語がテキスト中でどのような文脈パターンで出現したかを示すデータ(コロケーションなど)である。すなわち、名詞であればどのような動詞の目的語として使われている、あるいは別の名詞Nと前置詞Pを介してN−P−Xのような形で使われている、というようなパターンが典型的であり、これらの束であると考える。図の例は、kinase という用語に関するものであり、この用語が”subunit of (kinase)” という形で4回、動詞 activate の目的語として17回、”activation of (kinase)” という形で32回、動詞 catalyse の主語として1回、”tyrosine phosphorylation of (kinase)” の形で1回出現したことを示している。ただしここで(kinase)と書いたのは kinase を主要部(大抵の場合は名詞句の最後の名詞)とする名詞句を意味する。
図22は用語の文脈パターンによる索引データを作成する処理過程(E5)である。初めに句列化手段P41によりテキストデータ41(論文データベースなど)から句列データE5D1を作成する。(データの例については図23およびその説明箇所参照。)この過程は浅い構文解析(shallow parsing)とも呼ばれ、名詞句(前置詞句や関係節を含まないレベルの名詞句、ただし用語の一部となっている前置詞は例外とする)、動詞句、前置詞、接続詞などの文構成要素の連続のレベルにまで解析するもの(フラットな文構成解析)である。
次に局所文脈抽出手段P42により句列データE5D1から局所文脈データE5D2が抽出される。抽出する局所文脈としては名詞句をNP,動詞句をVP,前置詞をPrepとして、NP−VP, VP−NP,VP−Prep−NP, NP−VP−NP, NP−VP−Prep−NP, NP−Prep−NP などである。NP−VP と NP−VP−NP のように一方が他方の一部として含まれる場合には、長い方を取るものとする。また、このように明確な関係を特定できないような隣接する名詞句同士も「隣接関係」ということで取っておく。特に頻度の低い用語の場合には、上記のような動詞や前置詞を介した明確な関係だけでは十分な情報量を得られない場合が多いので、このような漠然とした隣接関係も利用するのが有効である。(このような関係は隣接関係も含めてコロケーションと呼ばれることが多いが、ここではコロケーションという言葉で通常表されるものよりも一般的な用語間関係まで許容するという意味で局所文脈と呼んでいる。)
続いて文脈パターンへの展開手段P43により局所文脈データE5D2から局所文脈を構成する各要素(名詞句)毎に、その名詞句を変項とする文脈パターンとして捉え直す作業が行われ文脈パターンデータE5D3が作られる。すなわち名詞句AとBが A activate B というを構成している場合、これをAを中心にして見れば*−activte−B という1変項パターン(*を変項とする)を充足させていると捉えることができ、またBを中心にして見れば A−activte−* という1変項パターンを充足させている、と捉えることができる。このようにして、文脈を構成する各項についてそれを中心にしたパターンの集まりへと展開する。(後に図24にて例の説明を行う。)
続いて索引作成手段P44により文脈パターンデータE5D3から各用語ごとにパターンデータをまとめ上げる作業が行われ、さらに同じパターンについては頻度をカウントすることにより用語−文脈パターン索引33が作られる。さらに続いて逆引索引作成手段P45により用語−文脈パターン索引33から文脈パターン−用語索引34が作られる。
図23および図24は用語の文脈パターンによる索引データを作成する過程における中間データの例である。図23はテキストデータ41の一部にE5D0のようなテキスト部分が含まれていたとして、その部分が句列化手段P41により解析された場合の例である。E5D1がその部分に対応する句列データの例である。<PH np . . . >は名詞句、<PH vp . . .>は動詞句、を示している。句がいくつかの単語から構成される場合には、その下に構成単語が一行一単語で示されている。例えば”the Gad1 promoter”に相当する部分は最初にmainが”promoter”である名詞句であることが示され、それに続いて”the”,”Gad1”,”promoter”が示されている。”the”については”np:D”というように名詞句の一部であることを示すnpの後ろにDという文字が表示されているが、これはこの部分が名詞句の冠詞や数量子に相当する内容語ではない部分であることを示している。
続いてこの句列データE5D1から局所文脈を抽出して次の図24の上段にある局所文脈データE5D2を得る。先に説明したように、抽出するパターンとしては 名詞句をNP,動詞句をVP,前置詞をPrepとして、NP−VP, VP−NP, VP−Prep−NP, NP−VP−NP,NP−VP−Prep−NP, NP−Prep−NP などである。この場合には名詞句”Pitx2”,動詞句”activate”,名詞句”the Gad1 promoter”がNP−VP−NPの関係にあるので、それが抽出される。局所文脈データE5D2では、関係の種類Rがnp−vp−np,関係の第1引数に相当する名詞句の内容語部分が”Pitx2”,第2引数に相当する動詞句の主動詞が”activate”,第3引数の名詞句の内容語部分が”Gad1 promoter” であるとして記録されている。動詞句の助動詞部分や名詞句の冠詞、数量子部分など内容語でない部分はこの段階で削除される。
続いてこの局所文脈データE5D2から局所文脈を構成する各要素(名詞句)毎に、その名詞句を中心とする文脈パターンとして捉え直して展開する作業を行い文脈パターンデータE5D3を得る。まず第1引数である”Pitx2”を中心に捉えることにより動詞”activate”の主語であるというパターン(*−[activate])、目的語として”promoter”を取る”activate”の主語であるというパターン(*−[activate]−promoter)および目的語として”Gad1 promoter”を取る”activate”の主語であるというパターン(*−[activate]−Gad1_promoter)に展開される。第3引数の”Gad1 promoter”のように複合的な用語の場合、用語全体とその主部(多くは最後の名詞)の両方に関して展開を行う。はじめに主要部に関して、動詞”activate”の目的語であるというパターン([activate]−*)、主語に”Pitx2”を伴う”activate”の目的語であるというパターン(Pitx2−[activate]−*)に展開される。続いて”Gad1 promoter”についても同様なパターンに展開される。
文脈パターンデータE5D3から索引作成手段P44により用語−文脈パターン索引33を作る過程では文脈パターンデータをその第1要素(パターンの充足者)毎にまとめ、さらにその中で同じ文脈パターンについては頻度をカウントしてまとめることにより用語−文脈パターン索引33が作られる。
大量の専門用語が生産される分野(分子生物学など)における用語体系の整備、メンテナンスなどに利用できる。
用語閲覧型情報アクセス支援システムの構成。 サーバー側計算装置における処理手段の全体構成。 サーバー側計算装置における二次加工データの全体構成。 用語閲覧支援を行なうユーザインタフェースの一例。 関連用語を検索した時の画面推移の一例。 関連用語を検索した時の処理の流れを示すフローチャート。 関連用語検索手段P11が行う処理の詳細。 類似用語を検索した時の画面推移の一例。 類似用語を検索した時の処理の流れを示すフローチャート。 類似用語検索手段P12が行う処理の詳細。 類似用語検索手段P12が行う処理の各段階で生成されるデータの例。 関連用語検索結果の画面において着目した用語に対してターム・バリエーション・ビュー(その用語を単語列として包含する用語全体を構成単語列の包含関係で階層化して示す手段)を適用した時の画面推移の一例。 関連用語検索結果の画面において着目した用語に対してターム・バリエーション・ビューを適用した時の処理の流れを示すフローチャート。 タームバリエーションデータ作成処理の詳細。 タームバリエーションデータ作成の過程で生成される一連のデータの例。 ターム・バリエーション・ビューの表示画面において着目した用語の出現文脈一覧を表示させる時の画面推移の一例。 ターム・バリエーション・ビューの表示画面において着目した用語の出現文脈一覧を表示させる時の処理の流れを示すフローチャート。 出現文脈一覧作成処理の詳細。 出現文脈一覧作成の過程で生成されるデータの例。。 索引データ群を作成するための処理手段の構成例。 用語の文脈パターンによる索引データの一例。 用語の文脈パターンによる索引データを作成する処理過程。 用語の文脈パターンによる索引データを作成する過程における中間データの例。 用語の文脈パターンによる索引データを作成する過程における中間データの例(その2)。
符号の説明
Cクライアント側計算装置
C1演算手段
C2主記憶手段
C3補助記憶手段
C4入力手段
C41キーボード
C42マウス
C5表示手段
Sサーバー側計算装置
S1演算手段
S2主記憶手段
S3補助記憶手段
S4入力手段
S41キーボード
S42マウス
S5表示手段
N通信ネットワーク
Prn印刷装置
1GUI
11主画面
111データセット選択部
112検索要求入力部
113検索モード(関連語か類似語か)選択部
114検索数などのパラメータ設定部
115結果表示部
116検索実行ボタン
P処理手段
P01クライアント管理手段
P02サーバー側管理手段
P11関連用語検索手段
P12類似用語検索手段
P13タームバリエーション作成手段
P14出現文脈一覧作成手段
P21用語による文書検索手段
P22文書集合に対して特徴的な用語を関連づける手段
P23用語集合に対して特徴的な文脈パターンを関連づける手段
P24文脈パターンの集合に対して特徴的な用語を関連づける手段
P25単語列に対してそれを構成上包含する用語全体を検索する手段
P26用語階層化手段
P27文脈抽出整列手段
P31連想計算手段
P32ブーリアン検索手段
P41句列化手段P42局所文脈抽出手段
P43文脈パターンへの展開手段
P44索引作成手段
P45逆引索引作成手段
Tデータタイプ
T1重み付き重み順リスト
T2連想リスト
2一時データ
21検索要求
22重み付きテキストリスト
23重み付き用語リスト
24タームバリエーションデータ
25出現文脈一覧データ
3二次加工データ
31用語−文書索引
32文書−用語索引
33用語−文脈パターン索引
34文脈パターン−用語索引
35単語−用語索引
4一次データ
41テキストデータ。

Claims (6)

  1. 検索対象用語を入力させる手段と、
    前記検索対象用語と関連度の高い用語を検索する関連用語検索手段と、
    前記検索対象用語と意味的な類似度の高い用語を検索する類似用語検索手段と、
    前記検索対象用語を語構成上包含する一群の同族用語を検索する同族用語を検索し、前記検索された一群の同族用語を語構成上の包含関係に従って階層化するタームバリエーション作成手段と、
    前記類似用語検索の際に、検索された類似用語に特徴的な文脈パターンを抽出する文脈抽出手段と、
    前記関連用語検索手段、前記類似用語検索手段、前記タームバリエーション作成手段と前記文脈抽出手段とを用いて検索した結果を出力する手段とを有することを特徴とする用語閲覧型情報アクセス支援システム。
  2. 多数の専門用語を効率的に閲覧し、用語に関する関連情報を得るための用語閲覧型情報アクセス支援システムであって、
    検索対象の用語を入力させる手段と、
    機能要件として
    指定された用語と関連度の高い用語を検索して関連度の順に提示する関連用語検索機能、
    指定された用語と意味的な類似度の高い用語を検索して類似度の順に提示する類似用語検索機能、
    上記類似用語検索の際に、検索された類似用語に特徴的な文脈パターンを特徴度の大きい順に抽出して指定された個数表示する特徴文脈パターン表示機能、 指定された用語を語構成上包含する一群の同族用語を検索する語構成上の同族用語検索機能と上記検索された一群の同族用語を語構成上の包含関係に従って階層的に表示する同族用語群の階層的表示機能とを有するターム・バリエーション・ビューと、
    指定された用語がテキストデータ中で使われる文脈を指定用語を中心として前後一定幅の範囲で切り出して一覧表示するKWIC機能、
    の機能要件のうち、少なくとも一部を有し、これらの機能を実現する構成要件として
    文献毎にどの用語が何回出現しているかをまとめたデータである、文献データベースの用語によるインデックスデータと、用語毎にどの文献に何回出現しているかをまとめたデータであるインデックスデータと、
    上記逆インデックスデータに基づいて、入力として与えられた用語を含む、もしくは用語のブール結合式の入力に対してはその条件に合致する文献を検索する手段、
    入力として、文献データベースに含まれる任意の文献集合が与えられた場合、上記文献データベースの用語によるインデックスデータを用いて、該文献集合中に出現する各用語の特徴度を計算し、その特徴度の大きい順に指定された個数の用語を出力する手段、
    用語をその用語が出現する文脈で索引付けしたどういう文脈パターンで何回出現したかをまとめたインデックスデータである用語の出現文脈プロファイルとその逆インデックスデータ、
    入力として与えられた任意の用語集合に対して、上記用語の出現文脈プロファイルを用いて、それらの入力用語集合に特徴的な文脈パターンを特徴度を重みとする重み付きリストとして、重みの降順に指定された個数出力する手段、
    入力として与えられた文脈パターンの重み付きリストに対して、上記用語の出現文脈プロファイルの逆インデックスを用いて、各用語の出現文脈プロファイルと入力リストとの合致度を計算し、合致度の高い用語を合致度を重みとする重み付きリストして、重みの降順に指定された個数出力する手段、
    文献データベースに出現するすべての用語をその構成単語で索引付けしたインデックスデータとその逆インデックスデータ、
    上記逆インデックスデータに基づいて、入力として与えられた単語を構成要素として含む用語、また入力が単語の並びである場合にはその並び順で構成要素として含む用語を検索する手段、
    入力として与えられた用語の集合に対して、それらを単語構成上の包含関係で階層化する手段、
    単語構成上の包含関係で階層化された用語集合に対して、階層上のあるノードから指定された深さまでの用語を木構造など階層的に画面表示する手段、
    である機能を実現する構成要件のうち、少なくとも一つを有することを特徴とする用語閲覧型情報アクセス支援システム。
  3. 請求項2の用語閲覧型情報アクセス支援システムであって、その機能要件間の連携機能として、
    関連用語検索の結果画面に表示される各関連用語に対して、所定の操作でその用語の語構成上の同族用語を検索し階層的表示機能を呼び出すことができる連携機能、
    意味的類似用語検索の結果画面に表示される各類似用語に対して、所定の操作でその用語の同族用語を検索し階層的表示機能を呼び出すことができる連携機能、
    前記ターム・バリエーション・ビューに表示される各用語に対して、所定の操作でその用語の出現文脈一覧表示機能を呼び出すことができる連携機能のうち、少なくとも一部を有することを特徴とする用語閲覧型情報アクセス支援システム。
  4. 請求項2の用語閲覧型情報アクセス支援システムのためのデータ作成方法であって、構成要件として
    テキストデータを解析し、各文書に対して、文書中に出現するすべての用語とそれらの出現回数を記録した索引データを作成する手段、
    上記索引データの逆索引データである、用語ごとに、どの文書に何回出現したかというデータをまとめたものを作成する手段、
    テキストデータを解析し、そこに出現するすべての種類の用語に対して、その用語がどのような文脈パターンで何回出現したかを記録した、用語の出現文脈パターンによる索引データである、出現文脈プロファイルを作成する手段、
    上記、用語の出現文脈パターンによる索引データの逆索引データである、文脈パターン毎に、それらがどの用語の文脈として何回出現したかをまとめたデータを作成する手段、
    上記テキストデータを解析し、そこに出現するすべての種類の用語をそれを構成する単語によって索引付けしたデータとその逆索引データを作成する手段、
    のうち、少なくとも一部を有することを特徴とする用語閲覧型情報アクセス支援システム。
  5. 請求項4の索引データを作成する手段は、用語の出現文脈プロファイルを作成する場合に、出現文脈のパターンとして以下の種類のものを使うことを特徴とする用語閲覧型情報アクセス支援システム。*−V, *−V−N, *−V−prep−N, V−*, V−prep−*, N−V−*, N−V−prep−*(ただしVは動詞(句)、Nは用語、prep は前置詞を表し、*−V−prep−N はある用語Xが”X V prep N” という文脈で出現したことを表すものとする)
  6. 請求項4、5のデータを作成する手段を用いて、請求項1の用語閲覧型情報アクセス支援システムのためのデータを作成してそれを用語閲覧型情報アクセス支援システムのユーザに通信ネットワークもしくは電子媒体を用いて提供する、データ作成・更新の請負サービス。
JP2004028796A 2004-02-05 2004-02-05 用語閲覧型情報アクセス支援システム Pending JP2005222263A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004028796A JP2005222263A (ja) 2004-02-05 2004-02-05 用語閲覧型情報アクセス支援システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004028796A JP2005222263A (ja) 2004-02-05 2004-02-05 用語閲覧型情報アクセス支援システム

Publications (1)

Publication Number Publication Date
JP2005222263A true JP2005222263A (ja) 2005-08-18

Family

ID=34997846

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004028796A Pending JP2005222263A (ja) 2004-02-05 2004-02-05 用語閲覧型情報アクセス支援システム

Country Status (1)

Country Link
JP (1) JP2005222263A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012017782A1 (ja) * 2010-08-06 2012-02-09 インターナショナル・ビジネス・マシーンズ・コーポレーション 文字列生成方法、プログラム及びシステム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012017782A1 (ja) * 2010-08-06 2012-02-09 インターナショナル・ビジネス・マシーンズ・コーポレーション 文字列生成方法、プログラム及びシステム
JP5337308B2 (ja) * 2010-08-06 2013-11-06 インターナショナル・ビジネス・マシーンズ・コーポレーション 文字列生成方法、プログラム及びシステム
US8954402B2 (en) 2010-08-06 2015-02-10 International Business Machines Corporation Character string generation method, article of manufacture and system
KR101498396B1 (ko) * 2010-08-06 2015-03-03 인터내셔널 비지네스 머신즈 코포레이션 문자열 생성 방법, 프로그램 및 시스템

Similar Documents

Publication Publication Date Title
US9659071B2 (en) Patent mapping
CN102640145B (zh) 可信查询系统和方法
US8370352B2 (en) Contextual searching of electronic records and visual rule construction
US7890533B2 (en) Method and system for information extraction and modeling
JP4365074B2 (ja) ユーザ定義可能なパーソナリティを備えた文書拡充システム
US6915308B1 (en) Method and apparatus for information mining and filtering
US10552467B2 (en) System and method for language sensitive contextual searching
US20020065857A1 (en) System and method for analysis and clustering of documents for search engine
US20050154690A1 (en) Document knowledge management apparatus and method
Stuckenschmidt et al. Exploring large document repositories with RDF technology: The DOPE project
JPH10222539A (ja) 半構造化情報の照会および解釈を構造化する方法および装置
AU2019201531A1 (en) An in-app conversational question answering assistant for product help
JP2003016089A (ja) 情報検索システム及びサーバ
TWI735380B (zh) 自然語言處理方法與其計算裝置
AU2013270517B2 (en) Patent mapping
EP1774432A2 (en) Patent mapping
JP3612769B2 (ja) 情報検索装置および情報検索方法
Carmel et al. Entity oriented search and exploration for cultural heritage collections: the EU cultura project
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
Revanth et al. Nl2sql: Natural language to sql query translator
JP2005222263A (ja) 用語閲覧型情報アクセス支援システム
JPH113357A (ja) 技術情報管理装置
JP4477587B2 (ja) テキストデータのコンピュータ処理用操作ボタン生成方法
Mallek et al. Automatic detection of variable data in web document: Graphical representation on demand
JP2006163723A (ja) ドキュメント検索方法