JPH04357568A - テキスト情報抽出装置とテキスト類似照合装置とテキスト検索システムとテキスト情報抽出方法とテキスト類似照合方法、及び、質問解析装置 - Google Patents

テキスト情報抽出装置とテキスト類似照合装置とテキスト検索システムとテキスト情報抽出方法とテキスト類似照合方法、及び、質問解析装置

Info

Publication number
JPH04357568A
JPH04357568A JP3241327A JP24132791A JPH04357568A JP H04357568 A JPH04357568 A JP H04357568A JP 3241327 A JP3241327 A JP 3241327A JP 24132791 A JP24132791 A JP 24132791A JP H04357568 A JPH04357568 A JP H04357568A
Authority
JP
Japan
Prior art keywords
text
analysis
analysis network
relationships
elements
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3241327A
Other languages
English (en)
Other versions
JP2943447B2 (ja
Inventor
Atsushi Kanaegami
金枝上 敦史
Kazuhiro Koike
和弘 小池
Hirokazu Taki
滝 寛和
Hitoshi Ookashi
大樫 仁司
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP3241327A priority Critical patent/JP2943447B2/ja
Priority to US07/826,090 priority patent/US5297039A/en
Publication of JPH04357568A publication Critical patent/JPH04357568A/ja
Application granted granted Critical
Publication of JP2943447B2 publication Critical patent/JP2943447B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S706/00Data processing: artificial intelligence
    • Y10S706/902Application using ai with detail of the ai system
    • Y10S706/934Information retrieval or Information management
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、テキスト情報抽出装
置とテキスト類似照合装置とテキスト検索システム等に
関するものであり、要約文等のテキストからその内容を
抽出してデータベース化したり分類したりするためのテ
キスト情報の抽出に利用されるものである。また、テキ
ストを含むデータベースに対する情報検索において、デ
ータベース中に含まれるテキストの意味的な類似性を照
合することにより類似情報を検索することを可能とし、
テキストを対象とした情報検索に利用されるものである
【0002】
【従来の技術】テキストを含むデータベースの情報検索
に文献や書籍などのデータベースがある。これらの情報
を検索する方法として、キーワードによる検索とテキス
ト中の言葉のパターンマッチによる検索、そしてテキス
トの類似性を判定した検索方法の大きく3種類の検索方
法がある。
【0003】キーワード検索、パターンマッチング検索
はすでに知られた技術である。これら単語による検索方
法では検索のモレをなくするために単語がもつ同義語、
類義語も検索の対象にする方法がとられている。そして
テキストの意味的な類似性判定による検索では、公開特
許公報(特開昭64−21624)の“日本語文書検索
システム”のように、テキストを形態素解析、構文解析
し、その結果得られた単語や、単語間の係り受け関係を
検索の対象とし、さらにそこで得られた単語の同義語、
類義語、概念情報も検索の対象とするテキストの類似性
判定方法がある。また類似性判定は目的とはしていない
が、今回の発明の要素技術として関連のあるものとして
、特許抄録文から用語の関係を抽出する方法を述べた高
松、日下、西田、“技術抄録文からの関係情報の自動抽
出”(情報処理学会論文誌Vol.25,No.2,1
984年3月)がある。
【0004】
【発明が解決しようとする課題】キーワード検索は、む
だな検索結果を出したり、逆に必要な検索結果を漏らす
ことが多く、これらの問題を人間がキーワード体系を熟
知し、論理式の組み方を工夫することにより解決してい
る。これらの作業は人間に負荷を与えており、この負荷
を少なくするためにテキストの意味的な類似性を判定す
る方法がある。しかし、この意味的な類似性判定方法も
従来の方法は、言葉の概念を追求するという方法により
、意味的な類似性判定をおこなおうとしていた。ところ
が言葉の概念は、ごく小数の人間にしか理解できず、さ
らに明確な定義が難しい上、それが意味的な類似性判定
にどのように影響するかを判明できていない。よい類似
性判定が得られるためには、そこに出現する概念を1つ
1つ人間の手で調整してゆく必要がある。このように実
際にはある限られた量のテキストに対してのみ実装可能
である。特許文献などの大規模なデータベースに対して
、この手法を用いるのは膨大な時間と労力が必要である
し、実際にはごく限られたシステム開発者の手によって
構築してゆくしか方法がなく、現実的ではない。
【0005】この発明は、テキストの内容を自動的に抽
出してこれらの情報を解析ネットワークとして出力する
テキスト情報抽出装置及びその抽出方法を得るとともに
、得られた解析ネットワークを用いてデータベースを構
築しこのデータベースに対して柔軟性ある意味的な類似
判定を行なうことができる類似照合装置及びその照合方
法を得ることを目的とする。また、この発明は、大規模
なテキストデータベース対して精度が高く、効率のよい
テキスト検索システム等を得ることを目的としている。
【0006】
【課題を解決するための手段】第1の発明に係る請求項
1に記載したテキスト情報抽出装置は以下の要素を有す
るものである。 (a)テキストを入力する入力部、(b)入力されたテ
キストを解析し、テキストを構成する要素と要素の関係
を抽出して、各要素とその関係を記憶した解析ネットワ
ークを作成する展開部、(c)所定の用語に対して、そ
の用語の同義語/類義語/シソーラス等の関連語を記憶
する関連語辞書、(d)展開部により作成された解析ネ
ットワークの要素が関連語辞書に記憶された関連と一致
するとき、関連語辞書に記憶されたその関連語を解析ネ
ットワークに補完する関連語処理部、(e)解析ネット
ワークを記憶装置あるいは表示装置に出力する出力部。
【0007】第2の発明に係る請求項2に記載したテキ
スト情報抽出装置は以下の要素を有するものである。 (a)テキストを入力する入力部、(b)入力されたテ
キストを解析し、テキストを構成する要素と要素の関係
を抽出して、各要素とその関係を記憶した解析ネットワ
ークを作成する展開部、(c)所定の用語に対して、そ
の用語の同義語/類義語/シソーラス等の関連語を記憶
する関連語辞書、(d)展開部により作成された解析ネ
ットワークの要素が関連語辞書に記憶された関連語と一
致するとき、関連語辞書に記憶されたその関連語を解析
ネットワークに補完する関連語処理部、(e)テキスト
の内容に関連する情報をあらかじめ要素とその関係とい
う形で記憶しておく概念テンプレート、(f)所定の用
語に対して、その用語を補完する事項を要素とその関係
という形で記憶しておく補完テンプレート、(g)展開
部により作成された解析ネットワークと概念テンプレー
トを照合して類否を記憶する照合部、(h)展開部によ
り作成された解析ネットワークの要素が補完テンプレー
トに記憶された用語と一致するとき、補完テンプレート
に記憶されたその用語を補完する事項を解析ネットワー
クとして補完する補完部、(i)解析ネットワークを記
憶装置あるいは表示装置に出力する出力部。
【0008】第3の発明に係る請求項3に記載したテキ
スト類似照合装置は以下の要素を有するものである。 (a)少なくともひとつのテキストからテキストを構成
する要素の関係を抽出し、各要素と要素間関係を解析ネ
ットワークとしてあらかじめ記憶しておく解析ネットワ
ークベース、(b)比較したいテキストの解析ネットワ
ークを入力する解析ネットワーク入力部、(c)解析ネ
ットワークベースの解析ネットワークと解析ネットワー
ク入力部から入力された解析ネットワークの類似性を要
素及び要素間関係から判定する類似性判定部、(d)類
似性判定部により判定された結果を出力する出力部。
【0009】第4の発明に係る請求項4に記載したテキ
スト情報抽出方法は以下の工程を有するものである。 (a)テキストを入力する入力工程、(b)入力された
テキストを辞書を用いて解析し、抽出された名詞をひと
つの要素とし、動詞をひとつの関係とし、要素と関係か
らなる組をひとつ以上有する解析ネットワークを作成す
る展開工程、(c)抽出された要素をもとに、関連語辞
書により、解析ネットワークに関連語を追加する関連語
処理工程、(d)解析ネットワークを出力する出力工程
【0010】第5の発明に係る請求項5に記載したテキ
スト情報抽出方法は以下の工程を有するものである。 (a)テキストを入力する入力工程、(b)入力された
テキストを辞書を用いて解析し、抽出された名詞をひと
つの要素とし、動詞をひとつの関係とし、要素と関係か
らなる組をひとつ以上有する解析ネットワークを作成す
る展開工程、(c)抽出された要素をもとに、関連語辞
書により、解析ネットワークに関連語を追加する関連語
処理工程、(d)作成された解析ネットワークの各組が
、特徴あるものであるかを、すでに登録されている概念
テンプレート内の組と比較して照合する照合工程、(e
)作成された解析ネットワークにある要素をもとに、そ
の要素を補完する要素があるかを調べ、補完する要素が
ある場合はこれを解析ネットワークに追加する補完工程
、(f)解析ネットワークを出力する出力工程。
【0011】第6の発明に係る請求項6に記載したテキ
スト類似照合方法は以下の工程を有するものである。 (a)テキストを構成する要素と要素間関係をひと組以
上登録した解析ネットワークをひとつ以上記憶する解析
ネットワーク生成工程、(b)比較するテキストの解析
ネットワークを作成し入力する入力工程、(c)解析ネ
ットワークベースの解析ネットワークと入力された解析
ネットワークの要素と要素間関係をそれぞれの重みづけ
をもって比較しテキストの類似性を判定する判定工程、
(d)判定工程の結果を出力する出力工程。
【0012】第7の発明に係る請求項7に記載したテキ
スト検索システムは以下の要素を有するものである。 (a)検索されるテキストを記憶するデータベース、(
b)テキストを形態素解析して関連語を補完した補完語
リストを記憶する補完語リストベース、(c)質問を入
力し、検索のためのキーワードとその関係を出力する質
問解析部、(d)上記データベースのテキストを質問解
析部からのキーワードを用いて検索する第1の検索手段
を有するとともに、少なくとも以下の第2、第3、第4
の検索手段のいずれかを有する類似判定部、(d1)補
完語リストベースの補完語リストと第1の検索手段によ
り検索されたテキストに対応する補完語リストのいずれ
かに対して、質問解析部からのキーワードを用いて検索
を行なう第2の検索手段、(d2)補完語リストベース
の補完語リストと、第1の検索手段により検索されたテ
キストに対応する補完語リストと、第2の検索手段によ
り検索されたテキストに対応する補完語リストのいずれ
かに対して、質問解析部からのキーワードとその関係が
そのテキストに正しく存在するか判定して検索する第3
の検索手段、(d3)補完語リストベースの補完語リス
トと、第1の検索手段により検索されたテキストに対応
する補完語リストと、第2の検索手段により検索された
テキストに対応する補完語リストと、第3の検索手段に
より検索されたテキストに対応する補完語リストのいず
れかに対して、構文解析、意味解析することにより、質
問解析部からの関係と類似する関係が補完語リスト中に
存在するかを判定して検索する第4の検索手段。
【0013】第8の発明に係る請求項8に記載したテキ
スト検索システムは以下の要素を有するものである。 (a)照合するテキストを形態素解析して得られ単語を
キーワードとして抽出するキーワード手段、(b)少な
くとも一方のテキストから抽出されたキーワードに対し
て同義語/類義語/シソーラス等のもとの単語と類似度
の異なる関連語をキーワードとして補完して補完する関
連語手段、(c)一方のテキストのキーワードと他方の
テキストのキーワードを用いてキーワードの同一性を判
定する判定部、(d)判定部により同一性が判定された
キーワードに対して、少なくとも以下の評価手段のいず
れかを有する評価部、(d1)同一性があると判定され
たキーワードがもとの単語であるか、同義語か類義語か
などの補完語の類似度に合わせて類似度の重み付けをか
える第1の評価手段、(d2)キーワードの前方一致、
後方一致、中間一致などの部分的な一致で、類似度の重
み付けをかえる第2の評価手段、(d3)あらかじめキ
ーワードに重要度を割り当てておき、その重要度により
重み付けをかえる第3の評価手段。
【0014】第9の発明に係る請求項9に記載したテキ
スト解析装置は以下の要素を有するものである。 (a)テキストを記憶するデータベース、(b)テキス
トを形態素解析して、この形態素解析されたテキストに
少なくとも同義語と類義語とシソーラスのいずれかを補
完語として任意複数回追加し、この補完語が追加された
テキストを補完語リストとして出力するテキスト解析部
、(c)テキスト解析部からの補完語リストを入力して
記憶する補完語リストベース。
【0015】第10の発明に係る請求項10に記載した
質問解析装置は以下の要素を有するものである。 (a)質問を要素と関係という項目で表した解析ネット
ワークを入力する入力処理部、(b)解析ネットワーク
の項目に入力されたテキストを形態素解析する形態素解
析処理部、(c)形態素解析処理部により処理された解
析ネットワークの項目の単語に対して、少なくとも同義
語と類義語とシソーラスのいずれかを関連語として追加
する関連語処理部、(d)少なくとも、上記形態素解析
処理部と関連語処理部で処理されたいずれかの解析ネッ
トワークから、検索条件となるキーワードと関係を抽出
する抽出部。
【0016】第11の発明に係る請求項11に記載した
質問解析装置は以下の要素を有するものである。 (a)質問を要素と関係という項目で表した解析ネット
ワークを入力する入力処理部、(b)解析ネットワーク
の項目に入力されたテキストを形態素解析する形態素解
析処理部、(c)形態素解析処理部により処理された解
析ネットワークの項目の単語に対して、少なくとも同義
語と類義語とシソーラスのいずれかを関連語として追加
する関連語処理部、(d)少なくとも、上記形態素解析
処理部と関連語処理部で処理されたいずれかの解析ネッ
トワークから、検索条件となるキーワードと関係を抽出
する抽出部、(e)所定の用語もしくは関係に対して、
その用語もしくは関係を補完する別の用語もしくは関係
を記憶しておく補完テンプレート、(f)上記抽出部か
ら得られた関係に対して、補完テンプレートに記憶され
た関係もしくは用語と一致するとき、補完テンプレート
に記憶された関係もしくは用語を、解析ネットワークか
ら得られる検索条件となるキーワード、関係に追加する
質問補完処理部。
【0017】
【作用】人間は、類似文章検索の過程の中でテキストの
読解過程でおこなわれる要点抽出と、類似テキストを検
索する時におこなう同義語、類義語などの関連語の判定
と、知識による用語の意味理解と、いろいろな観点から
の類似性判定の処理をおこなっている。これらの処理を
疑似的におこなうため、まず基本となる要点抽出の処理
をおこなうため、テキストの分野ごとに人間、特にデー
タベース検索業務を常としている人もしくは各分野の専
門家のおこなっている要点抽出方法を実現するため、そ
れぞれの要点を形式化した解析ネットワークを利用する
【0018】第1の発明に係るテキスト情報抽出装置と
第3の発明に係るテキスト情報抽出方法は解析ネットワ
ークを中心とした問題解決手段である解析ネットワーク
生成に関するものである。
【0019】第1の発明に係るテキスト情報抽出装置に
おいて、展開部はテキストを形態素解析、構文解析し、
抽出された名詞をひとつの要素とし、動詞をひとつの関
係とした要素と関係とからなる組をひとつ以上抽出する
ことにより、人間が読解したと同様に分類される要素と
関係の組として抽出し、解析ネットワークを作成する。 この方法でデータベース中のすべてのテキストを変換し
、解析ネットワークベースを作成することができる。
【0020】また、第2の発明において、照合部は、概
念テンプレートとして記憶されたその分野で特徴的事項
や重要事項や一般事項と考えられている情報を、上記処
理により得られた解析ネットワークと比較照合し、照合
の度合により作成された解析ネットワークの各要素関係
の組の重要度を付加もしくは不要な組を削除することが
できる。また、補完部は、解析ネットワーク中の用語に
関連する用語もしくは関係を知識ベースの補完テンプレ
ートから抽出し、解析ネットワークに追加することによ
り、テキスト中の用語もしくは関係を他の用語もしくは
関係でも照合検索できるようにする。
【0021】第4の発明に係るテキスト情報抽出方法に
おいて、展開工程は、上記第1の発明の展開部と同様に
解析ネットワークの生成を行なう。また、同義/義類処
理工程は、作成された解析ネットワーク中の用語を同義
語、類義語の代表語に置き換えるか、同義語類似語の集
合を追加する。このことにより、テキスト中の用語が解
析ネットワーク中ではすべて代表語に置き換わり、比較
照合がしやすくなる。あるいは、同義語類似語の集合の
追加により、比較照合のもれがなくなる。
【0022】また、第5の発明において、照合工程は、
解析ネットワーク中の組が概念テンプレートに存在する
かを照合し、このことにより、解析ネットワークがどの
点について特徴あるものかを知ることができる。さらに
、補完工程は、知識ベースの補完テンプレートを参照し
、解析ネットワークに追加する。このことによりテキス
ト中の用語が他の用語でも照合検索できるようになる。
【0023】次に、第3の発明に係るテキスト類似照合
装置と第6の発明に係るテキスト類似照合方法は、解析
ネットワークを用いた類似性判定に関するものである。
【0024】第2の発明に係るテキスト類似照合装置に
おいて、解析ネットワークベースは、第1の発明あるい
は第3の発明により作成された解析ネットワークをデー
タベース化したものである。入力部は、検索条件として
、解析ネットワークベースと類似性を照合したいテキス
トの解析ネットワークを入力する。類似性判定部は、検
索条件として入力された解析ネットワークと解析ネット
ワークベースの解析ネットワークを、用語の一致、用語
の関係の一致を調べ一致度を点数化する。出力部は、検
索条件とデータベースのテキストの類似度を表示部にて
示す。なお用語および用語の関係に点数の重み付けを変
えるパラメータを与えるようにすることにより柔軟なシ
ステムを構築できる。
【0025】第4の発明に係るテキスト類似照合方法に
おいて、解析ネットワーク生成工程、入力工程、判定工
程、出力工程は、第3の発明に係るテキスト類似照合装
置の解析ネットワークベース、入力部、類似性判定部、
出力部に対応する工程である。
【0026】以上の作用をまとめると、解析ネットワー
クと、類似性判定により、データベース検索を業務とす
る人もしくは各分野の専門家と同じ観点で要点把握され
た類似テキストを捜すことが可能になり、類似性判定時
に各要点ごとの比較ができ、検索の精度が向上する。ま
た、同義語、類義語を類似性判定の対象とすることによ
り検索のモレを減少させる。また、補完テンプレートに
よりテキストから得られた解析ネットワーク中のある情
報に対して専門家知識などの情報をさらに追加すること
により、検索のモレをなくする。また、類似性判定の基
準を変えることにより、いろいろな観点からの類似度が
一目瞭然となり、広い意味で検索のモレをなくする。以
上本発明において、検索のモレをなくする機能と精度を
あげる機能をうまく利用することにより、人間が思考錯
誤しながら類似性判定をおこなう過程を擬似することが
可能である。
【0027】第7の発明に係るテキスト検索システムは
、たとえば、類似する技術文献を検索するため、技術要
素に着目したものである。各技術分野に存在する技術要
素は、単語および単語間の関係で表すことができ、この
関係の類似性の判定により、類似文献を捜し出す。本シ
ステムにおいては、類似判定部がキーワードによる第1
の検索手段を有し、第2、第3あるいは第4の検索手段
によりキーワード間、関係間の類似性を判定し、段階的
な類似性の判定を行なう。このシステムは、比較的処理
は速いが精度のよくない第1の検索手段により検索対象
数を減少させ、順に処理は遅いが精度の良い第2、第3
、第4の検索手段に移ることにより、全体として検索の
効率と精度を高くしようとするものである。
【0028】第8の発明に係るテキスト検索システムは
、テキスト類似判定をキーワードの同一性を判定する判
定部と、その同一性の評価を行なう評価部に分けるとと
もに、評価部においては、テキストにはじめからあった
単語か後で追加された関連語かにより重み付けを変えよ
うとするものである。また、関連語の中でも同義語か類
義語かシソーラス等の類似度の異なる語に応じて重み付
けを変えようとするものである。さらに、判定部の一致
のしかたが全一致、後方一致、前方一致、中間一致等に
より重み付けを変えようとするものである。また、キー
ワードの重要度により重み付けを変えようとするもので
ある。
【0029】第9の発明に係るテキスト解析装置は、テ
キスト解析部が要約文等のテキストを入力し、同義語/
類義語/シソーラスを繰り返し追加した補完語リストを
作成するもので、検索者がテキストと補完語リストのい
ずれかあるいは、両方とも検索できるので、検索効率が
よくなる。とくに、補完語リストを用いれば、検索のも
れが少なくなる。
【0030】第10の発明に係る質問解析装置は、質問
を、要素と関係を表した解析ネットワークとして入力す
る。たとえば、「電極が半導体層の上にあり、その電極
の素材としてアルミを使った技術に関して記述している
文献」を調査する場合、質問形式は、解析ネットワーク
の形式で記述し、この解析ネットワークは、“構造”、
“製法”、“材料”といった技術要素を表す欄からなる
。構造は“要素1”、“要素2”、“関係”という項目
からなり、“要素1”と“要素2”の関係を“関係”で
表す。製法は“製法(名)”と“(製法)条件”の2つ
の項目からなり、“製法(名)”に製法の手段を、“(
製法)条件”にその時の条件を表す。材料は“材料(名
)”を表す。この質問形式は、人間が分かり易い意味づ
けで定義されており、検索の仕方を知らない技術者も質
問がしやすいという利点がある。また、抽出処理部は、
形態素解析処理後か、同義/類義/シソーラス等の関連
語処理やテンプレート補完処理等の補完処理後のいずれ
の解析ネットワークからでもキーワード、関連語、関係
を抽出するので検索条件を柔軟に作成することができる
【0031】また、第11の発明は、専門家用語等を記
憶した補完テンプレートを用意して、質問を補完するの
で、質問側のモレがなくなる。
【0032】
【実施例】
実施例1.解析ネットワークとシステム構成の2つにつ
いて、今回の実施例を説明する。まずは解析ネットワー
クについて説明する。解析ネットワークは、個々の技術
資料が持つ技術的な要点を表現するためのもので、今回
は半導体関連の技術資料が持つ要点のなかから、主に構
造についてこの解析ネットワークの表現を具体化した例
をあげる。
【0033】図1は、解析ネットワークの概念図を示し
ている。図1は、半導体の構造中にあらわれる、ある構
造物の関連を示している。例えば、基板の上に多結晶半
導体層があるという関係を、表1の1行目で示している
。そして、MOSが微細化かつ高集積化されているとい
う物質の状態を2/3行目で示している。このように解
析ネットワークは、半導体が持つ構造の特徴を示すため
の表形式表現である。
【0034】つぎにシステム構成を説明する。本システ
ムの構成は、図2のように大きくユーザインタフェース
層(U層)、カーネル層(K層)、通信層(C層)、デ
ータベース/知識ベース層(D層)の4つの層からなる
。U層は、ユーザからの検索対象の入力を受け付ける解
析ネットワーク入力部(ANI)、解析ネットワークに
判定時の重み付けをおこなう判定要素変更部(JEC)
、検索結果の表示をおこなう類似先行技術表示部(EX
P)を持つ。K層は、スーパバイザ(SVM)、解析部
(ANM)、類似性判定部(SJM)より構成される。 解析部は、さらに解析ネットワーク展開部(AEM)、
同義/類義処理部あるいは関連語処理部(SPM)、解
析ネットワーク補完部(CTM)、概念テンプレート照
合部(CTR)からなる。
【0035】スーパバイザは、U層との通信、K層の資
源、制御の管理をおこなう。解析ネットワーク展開部は
、請求解析ネットワークの生成と先行技術解析ネットワ
ークの生成をおこなう。請求解析ネットワークの生成は
、あらかじめ人間が作成した請求解析ネットワークへの
同義/類義語等の関連語の付加、もしくは請求要約文か
らの請求解析ネットワークの自動作成をおこなう。先行
技術解析ネットワークの生成では、先行技術の要約文か
らの先行技術解析ネットワークの自動作成をおこなう。 解析ネットワーク補完部は、解析ネットワーク展開部で
生成された解析ネットワークに対し専門家知識の追加を
おこなうことにより、解析ネットワークの充実をおこな
う。
【0036】C層は、D層にある辞書、専門家知識、そ
の他解析データのやりとりを制御し、D層は、辞書とし
て構文解析辞書(AD)、基本辞書(PD)、同義語/
類義語辞書あるいは関連語辞書(SD)、用語識別辞書
(TD)、専門家知識として、概念テンプレート(cT
)、補完テンプレート(CT)、解析データとして特許
データベース(PDB)、解析ネットワークベース(A
DB)をもつ。
【0037】構文解析辞書は、要約文を字切りするため
の辞書であり、各品詞情報をもつ。名詞としては一般語
の他、先行技術分野で出現する専門語を保持する。基本
辞書は、主に調査対象となる技術分野の専門語を保持す
る辞書で、これを基に他の辞書(構文解析辞書、同義語
/類義語辞書(関連語辞書)、用語識別辞書)を作成し
ている。同義語/類義語辞書(関連語辞書)は、一般語
の同義語/類義語の他、専門語の同義語/類義語を持つ
。用語識別辞書は、専門語の中でさらに構造や製法、材
料等、その語の出現する場面を分類するための辞書であ
る。
【0038】概念テンプレートは、調査対象となる技術
分野で専門家が重要とする、もしくは常識とする概念を
表した専門家知識の1種であり、要約文から得られた解
析ネットワークの概念の中で、それらの概念の重要度を
識別するために利用される。今回の実施例における概念
テンプレートの例を図3に示す。ここに示しているのは
半導体の構造概念を表したもので、構造を要素と要素間
の関係、および要素とその状態で表したものである。
【0039】補完テンプレートは、概念テンプレート同
様専門家が重要、もしくは常識とする概念を表した専門
家知識である。概念テンプレートとの違いは、ある専門
用語をキーワードとし、その専門用語が持つ意味、バッ
ククランドとなる知識であり、解析ネットワークに新し
い用語もしくは関係の組を追加するためのものである。 今回の実施例における補完テンプレートの例を図4に示
す。ここに示しているのは半導体の構造名をキーワード
とし、その専門用語が持つ構造に関する関係の組を表し
たものとある。この他にも製法名をキーワードとしたり
、材料名をキーワードとした補完テンプレートが考えら
れる。
【0040】特許データベースは、技術資料をテキスト
とそれに付加されたキーワードなどに分けて保持してい
る。解析ネットワークベースは、先行技術資料のテキス
トをあらかじめ解析した後の解析ネットワークと、先行
技術と個々の検索技術との類似性を判定した後の判定結
果を保持している。判定結果には、類似点数と、類似性
の判定理由の情報が含まれている。
【0041】次に、第1の発明に係るテキスト情報抽出
装置及び第3の発明に係るテキスト情報抽出方法の動作
について説明する。図5は、特許データベースから解析
ネットワークを作成し、データベース化するテキスト情
報抽出装置の要約文解析処理及びテキスト情報抽出方法
の解析ネットワーク生成工程を示す図である。また、図
6は、解析ネットワークの生成工程の具体例である。図
5において、S1は入力工程、S2は展開工程、S3は
同義類義語(関連語)処理工程、S4は照合工程、S5
は補完工程、S6は出力工程である。またS100は、
解析ネットワーク生成工程である。また、図6において
は1は、特許データベース(PDB)から入力された入
力文章、2は、形態素解析後の字切りリスト、3は、作
成された解析ネットワーク、4は、同義類義語等の関連
語による追加がされた解析ネットワーク、5は、補完後
の解析ネットワークである。
【0042】次に動作について説明する。まず、入力工
程S1で、特許データベースからあらじめデータベース
化されているテキスト文1を取出し、次にS2aで、こ
のテキスト文を構文解析辞書を用いて形態素解析する。 図6(b)の形態素解析後の字切りリスト2は、この形
態素解析S2aの結果を示したものである。字切りリス
ト2に示すように、テキストは名詞、動詞、その他の品
詞に分けられることによる。次に、S2bでは、この字
切りリスト2を基にして構文解析を行なう。この構文解
析S2bでは、形態素解析時に個々の文字に付加された
品詞情報を基に構文解析をおこなう。構文解析は、名詞
に「を」または「に」が同じ文節にあるものを選び、そ
の後ろの「動詞」を選ぶ。ここでえらばれた動詞、「(
を)名詞」、「(に)名詞」を、後にそれぞれ関係、要
素1、要素2とする。たとえば、入力文章1からは、「
(を)名詞」として「スイッチング  トランジスタ」
を選択し、「(に)名詞」として「シリコン膜」を選択
し、それぞれを要素1、要素2とし、これらの関係とし
て動詞「形成」を選択することになる。このようにして
、解析ネットワークの一組(一行)が生成される。 さらに、用語による重み付けS2cでは格納された名詞
、動詞に対して識別辞書を用いて識別辞書中に存在する
ものに*マークを付ける。さらに、S2dで得られた関
係−要素1−要素2を解析ネットワーク3の構造の1行
として格納する。こうして得られた解析ネットワーク3
中の名詞/動詞に対して、同義/類義辞書(関連語)を
用い同義語/類義語があった場合、S3で元の行を同義
語/類似語に置き換えた行を新しく解析ネットワーク3
に追加する。そして、S4でここまで作成された解析ネ
ットワーク4の構造の1行に対し、概念テンプレートと
同じ関係−要素の組があるかをチェックし、もし同じ関
係−要素組があれば○マークをマークする。この例では
、図3の概念テンプレートに「形成、スイッチングトラ
ンジスタ、シリコン膜」があるので、図6(d)の解析
ネットワークの該当組に○印をつける。次に、S5にお
いては、最後の処理として、補完テンプレートによる行
の追加をおこなう。この例では、図4の補完テンプレー
トに「シリコン膜」のキーワードがあるため、図6(e
)に示すように「酸化、SiO2 ・SiO、シリコン
膜」が専門知識として補完され追加される。ここまでで
処理が完了し、解析ネットワークが完成する。以上の処
理において、入力された文章が解析ネットワークに変換
される。
【0043】さて、次に、解析ネットワークの他の実施
例を示す。図7(a)は、入力文章1を示し、(b)は
、この入力文章から得られた補完後の解析ネットワーク
5である。前例では、同義類義語処理(関連語処理)に
おいて同義類義語があればあらたに一行追加する場合を
示したが、この例では、同一行k1〜knにそれぞれ「
表示」、「同義」、「類義」の欄をもっており、同義、
類義があればこれらの欄を使用する。「表示」にはテキ
ストの文字そのままで記入される。また、k1〜k5は
s4の照合工程までに生成された解析ネットワークであ
り、k5には、図3に示す概念テンプレートと一致した
ことを示す。○マークが付されている。さらにk6〜k
10はk1の「ポリSi膜」をキーワードにして図4の
補完テンプレートから補完されたものであり、またk1
1〜k12は、同じくk2の「自己整合技術」をキーワ
ードにして補完されたものであり、k6〜k10の最後
の補完テンプレートの欄には、k1の補完であることを
示す「k1」が記入され、k11〜k12にはk2の補
完であることを示す「k2」が記入さされている。
【0044】次に、解析ネットワークのその他の実施例
を図8に示す。図8に示した解析ネットワークは要素1
と要素2の方に、要素1と要素2の用途をそれぞれ記入
できるようにしたものである。このように構造上の関係
に用途も加えることによりその要素間関係が明確になり
人間が解析する方法により近くなる。たとえば、この例
では、絶縁基板は基板という用途がありゲート電極は電
極という用途に用いられていることを記入し、チャネル
は通信路として、ゲート電極はその端子としての用途が
あることが記入されている。
【0045】実施例2.次に、第2の発明であるテキス
ト類似照合装置及び第4の発明であるテキスト類似照合
方法の動作について説明する。図9は、テキスト類似照
合装置の類似性判定処理を示す図であり、図において、
S100は前述した解析ネットワーク生成工程であり、
ここでは、解析ネットワークベース(NDB)がすでに
生成されているものとする。S11は、検索条件となる
解析ネットワークを入力する入力工程、S12は、入力
された解析ネットワークに同義類義語処理(関連語処理
)をする同義類義処理工程(関連語処理工程)、S13
は解析ネットワークベース(NDB)から解析ネットワ
ークを抽出する工程、S14は抽出された解析ネットワ
ークと入力された解析ネットワークを比較し、類似性を
判定する判定工程、S15は結果を出力する出力工程で
ある。
【0046】以下、動作について説明する。まず、入力
工程S11により検索したい対象の解析ネットワークを
図1の解析ネットワーク入力部に入力する。この解析ネ
ットワークは人手で入力したものでも、解析ネットワー
ク生成工程で得られたものでもよい。もし人手で入力し
たものの場合は、S12によりその解析ネットワークの
各用語に対して同義語、類義語行を付加する。次に、S
13で解析ネットワークベースから解析ネットワークを
抽出する。入力工程からの解析ネットワークと抽出工程
からの解析ネットワークを比較し、点数付けをおこなう
。比較の詳細をさらに図10を用いて説明する。
【0047】図10は、類似性判定部(判定部)の判定
方法の一例を示す図である。まず解析ネットワークの用
語同志の比較をおこない一致した用語があった場合に点
数を与える。この点数を用語一致点Dとする。つぎに解
析ネットワークの用語ペアの比較をおこなう。そして同
様に一致した用語ペアがあった場合、点数Cを与え、こ
の点数をペア一致点Cとする。ここで用語ペアとは、解
析ネットワーク上でなんらかの関係を持つ2つの用語を
指す。最後に解析ネットワークの行の比較をおこない、
同様ここで得た点数を行一致点Bとする。以上で比較を
終了し、その結果を解析ネットワークベースに格納する
。以上の処理を繰り返し、すべての文献に対して比較の
結果を解析ネットワークベースに格納が終わる。結果表
示はそれぞれの結果の用語一致点D、ペア一致点C、行
一致点Bの2つの点数に対して、それぞれ重みd、c、
bをかけた総合点を算出し、その総合点の順番に類似文
章を表示する。
【0048】図11は、総合点数を計算するための具体
的一例を示す図であり、入力された解析ネットワーク2
0が、解析ネットワークAとBのいずれかに類似してい
るかを判定しようとした例である。図中要素と用途には
アルファベットと数字を便宜上付してあるが、2文字と
も一致したときは一致点、2点を与え、アルファベット
のみ一致したときは類似とみなし1点を与え、2文字と
も異なるときは関連なしとして0点を付するものとする
。このようにして、用語比較、用語ペア比較、行比較を
行なうと、それぞれ23、24のようになる。重みはす
べてb=c=d=1とすると総合点数は解析ネットワー
クA用は35点、B用は21点となりAの方が入力され
た解析ネットワーク20に類似していると判断すること
ができる。
【0049】さて、上記実施例では解析ネットワークに
用途の記入がある場合を示したがここで、もし、解析ネ
ットワークが用途の記入を行なわないものである場合に
は、用語ペア一致点Cに対する重みcを0にしてしまえ
ばよい。この変更は、判定要素変更部によって行なえば
よい。また、用途の記入がある場合でも記入が完全でな
い場合や、信頼できにくい場合には、重みcを0.5等
、他の重みb、dより小さくすればよい。
【0050】また、上記実施例では述べなかったが、図
6(d)に示したように要素に識別辞書中に存在するこ
とを示す*マークがある場合、当該技術分野の専門用語
であると考えられることから総合点に加算することが考
えられる。たとえば*マークを3点とすれば総合点は、
B×b+C×c+D×d+*マークの数×3となる。
【0051】同様に図6(d)に示すように概念テンプ
レートに存在したことを示す○マークがついている場合
も総合点に加算する。○マークを5点とすると総合点は
B×b+C×c+D×d+○マークの数×5となる。も
ちろん、これに*マークの数×3を加えてもよい。
【0052】判定要素変更部(JEC)は、これら重み
b、c、d及び*マークと○マークの点を変更する機能
をもち自由にその経験に基づき変更し、よりよい結果に
近づけるようにする。また判定要素部は辞書内の各単語
・専門用語ごとに点数を変更できるようにしておいても
よい。たとえば「ニューロ」という用語に10点を与え
るようにしておき、その他のものは前例のように3点を
与えておくと、「ニューロ」が検出されたときは、類似
度が高くなる。
【0053】以上のようにこの実施例では、テキストを
形態素解析、構文解析した結果を用語、用語の関係を知
識ベースの概念テンプレートを用いてあらかじめ分類分
けした解析ネットワークを作成する解析ネットワーク展
開部と、解析ネットワーク展開部で作成された解析ネッ
トワークを保持する解析ネットワークベースと、検索条
件として解析ネットワーク入力部より入力された解析ネ
ットワークと解析ネットワークベースの解析ネットワー
クの類似性を判定する類似性判定部より構成されるテキ
スト類似照合装置を説明した。また、解析ネットワーク
にデータベースの同義/類義語辞書を用いて解析ネット
ワーク中のすべての用語に同義語および類義語を付加す
る同義/類義処理部を持ったテキスト類似照合装置を説
明した。さらに、解析ネットワークに知識ベースの補完
テンプレートを用いて解析ネットワーク中の用語、用語
の関係から関連のある用語、用語の関係を付加する解析
ネットワーク補完部を持ったテキスト類似照合装置も説
明した。さらに、また、解析ネットワーク入力部にすで
に入力した解析ネットワークの用語や用語関係の重要度
を付加する判定要素変更部を持ったテキスト照合装置も
説明した。
【0054】なお、上記実施例では、関連語処理の一例
として同義類義処理を示し、関連語辞書の一例として同
義語/類義語辞書を示したが、その他のシソーラス等の
関連語を辞書に持ちこの関連語を付加する場合でもかま
わない。ここでシソーラスとは、上位概念と下位概念の
関係にある用語、製品と部品の関係にある用語等をいう
ものとする。また、シソーラスに限らず、その他の関連
語でもよい。
【0055】実施例3.さて、上記実施例では、検索さ
れるテキストを解析してすべてのテキストに対して解析
ネットワークを作成する場合について説明してきたが、
この方法では、類似照合精度がまだ不十分である。なぜ
ならば、あらかじめ、解析ネットワークを作成する場合
は、テキスト中のすべての要素と関係を解析ネットワー
クとして抽出できる訳ではなく、ある決まった構文上の
用語と用語の係り受けの解析を行なって解析ネットワー
クを作成している。したがって、すべての要素に対して
すべての関係が正しく抽出されていない場合がある。し
たがって、このような解析ネットワークをもとに検索し
ても十分な類似判定ができないことが起こりうる。。
【0056】さらに、上記実施例のように、すべてのテ
キストに対して、解析ネットワークを作成しておくこと
は、その作成時間を必要とするし、その解析ネットワー
クを記憶しておく記憶容量が必要になるという問題もあ
った。また、各テキストの解析ネットワークひとつひと
つに対して前述したような比較照合を行なうと検索時間
も大きくなる等の不具合もあった。
【0057】そこで、第7〜第11の発明は、これらの
不具合を解消するために考えられたものであり、検索す
るテキストは解析ネットワークの形で記憶しておくこと
をやめ、通常のテキストあるいは、通常のテキストに補
完語を追加した補完語リストの形でデータベースに記憶
させるようにするとともに、解析ネットワークの形で質
問を入力し、この質問からキーワードと関係を抽出し、
まず、データベースに対してキーワード検索を行ない、
ここで検索されたテキストにもしくは補完語リスト対し
て、キーワード検索を行ない、ここで検索されたテキス
トもしくは補完語リストに対して、構文解析、意味解析
等により、さらに、類似性を判定しようとするものであ
る。この類似性の判定を行なうテキストもしくは補完語
リストの量はすべて検索によりしぼられていること、及
び、そのテキストに質問された解析ネットワークのもつ
要素と関係があるかに注目して類似判定を行なえること
等により、この類似判定は高速かつ精度の高いものとな
る。
【0058】以下、第7の発明であるテキスト検索シス
テムについて説明する。図12は、テキスト検索システ
ムを示す図であり、質問解析部とテキスト解析部、類似
判定部の3つのモジュールと、テキストを格納するテキ
ストベース、辞書、専門家知識を格納する知識ベースか
ら構成される。図において、30は、IPC、公開番号
、要約文等の先行特許の要約された情報を記憶する特許
データベース、40は、単語辞書、同義/類義/関連辞
書、シソーラス、共起辞書、テンプレート等を記憶する
知識ベース、50は、テキスト解析された結果としての
先行特許補完語リスト等を記憶する補完語リストベース
、60は、特許データベース30から先行特許要訳文を
入力し、知識ベース30の各種辞書類を用いて解析し、
結果を先行特許補完語リストとして補完語リストベース
50へ出力するテキスト解析部、70は、特許データベ
ース30や補完語リストベース50に記憶された特許要
約情報から類似した情報を取り出すための質問を入力し
、その質問を解析する質問解析部、80は、質問解析部
70からの質問に基づいて特許データベース30あるい
は補完語リストベース50から類似する特許要訳文を捜
し出す類似判定部、90は特許データベースを補完語リ
ストベースからなるテキストベースである。
【0059】次に、テキスト解析部60の動作について
、図13、図14、図15を用いて説明する。図13は
、特許データベース30に記憶された先行特許要約文の
一例である。テキスト解析部60は、この先行特許要約
文を入力し、知識ベース40の単語辞書を用いて形態素
解析処理を行なう。図14に、この形態素解析処理後の
先行特許要約文を示す。次にテキスト解析部60はこの
先行特許要約文に対して同義/類義/関連辞書及びシソ
ーラスを用いて同義語/類義語/シソーラス等の関連語
を追加する。図15は、この同義/類義/シソーラスを
追加した関連語処理後の先行特許補完語リストを示して
おり、図中のe、s、cはそれぞれ以下の意味をもつ。 e:同義語 s:類義語 c:シソーラス 例えば、この例では、テキストが形態素解析されてでき
た単語に対して、 (1)単語(同義(シソーラス)) (2)単語(類義(類義)) というような関連語処理を行うような例であり、上記(
1)は、単語に対して同義語を追加した後、シソーラス
を追加する処理を意味し、(2)は、単語に対して類義
語を追加し、再びその類義語を追加する処理を意味して
いる。組み合わせは(1)(2)に限らず、任意の組み
合わせが可能である。また、3個以上を合わせてもよい
。以下、具体例を示す。たとえば、「(名詞)チップ」
に対して、 {装置、デバイス、ペレット、ダイス、ダイ、IC、集
積回路、セル、素子}という同義語の集合が追加されて
いる。また、「(動詞)設ける」に対して、{設置する
}という類義語が追加されている。また、「(名詞)熱
」に対して、 {エネルギー}というシソーラスが追加されている。さ
らに、この例では、同義処理のあとにシソーラス処理を
行なったので、追加された同義語に対するシソーラスも
追加できる。たとえば、同義語として追加された「IC
」には、 {CCD(国体撮像素子)、MOS、SIS、SIT、
SOS、バイMOS、バイホーラ、三次元、トランジス
タ、FET、基板}というシソーラスが追加されている
。さらに、同義類義処理あるいはシソーラス処理後に再
び同義類義処理あるいはシソーラス処理を行なうことも
可能である。たとえば、「(動詞)設ける」に対して1
度目の同義類義処理で{設置する}という類義語が追加
されたが、2度目の同義類義処理では、この{設置する
}に対して{形成する、作る}という同義語が追加され
る。次に、テキスト解析部60は、このようにして作成
された先行特許要約文に対して各形態素が要素、用途、
関係、製法、材料、機能等のいずれの分類にあたるか識
別する識別処理を行なう。その後、テキスト解析部60
は共起辞書を用いて共起辞書に登録されている用語が、
要訳文中にあればその用語と共起関係にある用語を要訳
文に追加する補完処理を行なう。この様にして、完成さ
れたのが先行特許補完語リストであり、テキスト解析部
60は以上の処理を各先行特許要約文について行ない、
これらを補完語リストベースに出力する。
【0060】次に、質問解析部70について述べる。ま
ず、その特徴は以下のようなものである。 (1)質問を、技術分野の特徴を表す関係で記述する。 記述は単語に限らず句や文を許す。 (2)質問および検索対象となる文献の文章中に現れる
キーワード、関係を抽出し、各単語には辞書を用いて関
連語を付与する。 (3)質問からの関係の抽出、質問への関係の補完に専
門家知識を用いる。 (4)キーワード間の関係を抽出する。 そして、これらの処理により、次の解析結果が得られる
。 ・キーワード集合 キーワードは、質問を分割して得られた単語のうち類似
判定に重要な単語およびその関連語である。 ・関係集合 関係は、キーワード間の関係、そして(3)、(4)に
より導出される関係である。
【0061】次に、質問解析部70の動作について、図
16〜図21を用いて説明する。図16は、解析ネット
ワークの形式をもっち質問の一例を示している図であり
、この場合は、類似の先行特許文献を捜そうとしている
特許出願(以後、略して本願という)をこのような形式
にして入力してやるものとする。この解析ネットワーク
は半導体などの構造物の特徴を表す解析ネットワークで
あり、大きく分けて構造と製法と材料に分かれている。 構造は、各構造欄が構造物の要素を示す「要素1、2、
3」と、要素1、2、3のそれぞれの用途を示す「用途
1、2、3」と、要素1、2、3間の関係を示す「関係
」から構成されている。これは、図8に示した解析ネッ
トワークを別な形で表現してものであり、図8に要素3
と用途3を追加したものと考えることができる。 要素3と用途3を追加したのは、「要素1と要素2の間
にある要素3」というような3者間関係を表すのに便利
だからである。「要素1の上に要素2」という2者間関
係を表す場合はこの要素3と用途3は使用されない。ま
た、用途1、2、3の記入も任意であり、通常はブラン
クのままでよい。次に、製法は各製法欄が製法を示す「
製法1、2」と、各製法における条件を示す「条件1、
2」と、「関係」から構成されている。2つの製法を使
った時の処理順序を「関係」に示す。製法の場合も条件
欄、関係欄は空欄でもよい。次に材料は材料と機能等か
ら構成されるが、この欄の記入は後のテンプレート補完
処理で行なうため、この例では記入されている必要はな
い。なお、図中、かっこ内の数字は得点であり、テキス
トの類似を判定するとき、その欄の重要性を示している
。たとえば、この例では、要素1と2には20点、関係
には50点を与え、ひとつの構造欄には100点が与え
られている。構造全体として300点であり、製法が1
00点であるため、構造が類似した方がそのテキストの
類似度が高くなることを示している。さて、質問解析部
70は、この本願解析ネットワークを入力すると、単語
辞書を用いて形態素解析処理を行なう。図17は、この
形態素解析処理後の本願解析ネットワークを示している
。次に質問解析部70は、同義/類義/シソーラス処理
を行なう。図18はこの同義/類義/シソーラス処理後
の本願解析ネットワークを示しており、図において、「
同」、「概」は以下の意味をもつ。 同:同義語 概:シソーラス また、図示していないが、「類」は類義語を示すものと
する。同義/類義/シソーラス処理はこのようにして、
同義語/類義語/シソーラスを関連語として本願解析ネ
ットワークに追加する。次に、質問解析部70は、知識
ベース40にあるテンプレートを用いてテンプレート補
完処理を行なう。図19は、補完テンプレートのひとつ
である材料テンプレートの一例を示す図であり、要素か
ら対応する材料(あるいは、用途・機能)を検索できる
ようになっている。図20は、図19に示した材料テン
プレートを具体的に記憶する場合のフォーマットの一例
であり、「:」で各フィールドの区切りを表している。 たとえば、この例では、3行とも要素が絶縁である材料
テンプレートが記憶されているフォーマットを示してい
る。質問解析部70は、この材料テンプレートを用いて
、本願解析ネットワークの材料を補完する。図21は、
このテンプレート補完処理後の本願解析ネットワークを
示しており、材料として、図20の絶縁膜に対する原材
料が補完語としてすべて追加されている。質問解析部7
0は、最後に、本願解析ネットワークからキーワードあ
るいは関係を抽出する作業を行ない、これを出力する。
【0062】なお、この例では、キーワードあるいは関
係を抽出するのは、テンプレート補完処理後の本願解析
ネットワークから行なう場合を示したが、形態素解析処
理後、あるいは、同義/類義/シソーラス処理後のいず
れかの本願解析ネットワークから抽出する場合でもかま
わない。
【0063】次に、類似判定部80の動作について、図
22〜図24を用いて説明する。類似判定部80は、前
記質問解析、テキスト解析により得られた解析結果を用
いて、次の4つのレベルの判定・評価を行なう。 (1)第1の検索手段 質問解析から得られたキーワード集合により、特許デー
タベース30をそのままテキスト検索し、キーワードの
一致を判定・評価する。ここで、質問中のキーワードを
テキストにどの程度含むかを判定する。ここではテキス
トをそのまま検索対象とするため、解析によるキーワー
ドの字きりの違いは問題にならない。そのかわり関連語
は検索対象にならない。ここでの評価方法は各文献ごと
に一致するキーワード数をカウントし、その数により類
似とする。図22は、このキーワードVSテキスト(要
約文)の判定結果を示す例であり、質問解析部70の形
態素解析処理後の本願解析ネットワークに対してキーワ
ード抽出処理を行なった結果、キーワードが14個抽出
され、この14個に対して特許データベースの要約文そ
のものを検索したところ、一致したキーワード数の最も
大きいものが6で1件見つかり、次に一致したキーワー
ド数が4のものが13件見つかったことを示している。 また、図23は、同義/類義/シソーラス処理後の本願
解析ネットワークからキーワード抽出処理を行ない、3
9個のキーワードを抽出し、これらのキーワードを用い
て、要約文の検索を行なった場合の結果の一例である。 一致したキーワードの数8が最高で1件見つかり、次が
一致したキーワード数5で4件見つかっていることを示
している。
【0064】(2)第2の検索手段 質問解析、テキスト解析それぞれから得られたキーワー
ド集合と補完語リスト同志の一致を判定評価する。ここ
で、検討対象であるテキスト側を補完語リストとするこ
とにより関連語を含むキーワード間の一致を判定する。 ここでは関連語として付加されたキーワード間の一致と
、元々キーワードとして存在するものの一致に違いを持
たせるため点数の重み付けを変えて評価を行なう。図2
4は、同義/類義/シソーラス処理後の本願解析ネット
ワークの構造、製法、材料の各欄からキーワードを抽出
し、これらをもとに、補完語リストベースを検索した場
合の判定結果を示している。類似得点は本願解析ネット
ワークの各欄でキーワードの一致を見たときその欄にあ
る配点を与える。ここで配点としては、本願のキーワー
ドと補完語リストのキーワードの一致が同義語による一
致か、類義語による一致か、もしくは、文字列の部分的
一致なのかなどの重み付けを計算の上、すべての欄にお
ける得点が加算された結果を示したものである。
【0065】(3)第3の検索手段 質問解析から得られた関係集合と、テキスト解析から得
られた補完語リスト間で、キーワードの一致を判定・評
価する。ここでは質問解析により得られた関係を構成す
るキーワードを用い、それらが積演算で一致する補完語
リストを捜し出す。たとえば、キーワード1と2が関係
Aをもっていれば、キーワード1と2と関係Aの3つの
キーワードが表れる補完語リストを検索する。
【0066】(4)第4の検索手段 質問解析およびテキスト解析により得られた関係集合同
士の関係の一致を判定・評価する。 (4)は(3)で一致が見られた文献に対して、さらに
意味的な関係の一致を判定する。すなわち文献文章を構
文解析、意味解析することにより、(3)で一致した関
係が本当に存在することを確認の上、(3)で一致を見
た関係間をさらに正確に判定する。
【0067】なお、類似判定部は、図25に示すように
、判定部と評価部から構成され、判定部は、質問文と文
献間に含まれる単語の類似度を判定する単語判定部、関
係の類似度を判定する関係判定部から構成される。そし
て、評価部では、判定部の結果をもとに質問と各文献と
の類似度を評価する。ここでは単語間の類似度を評価す
る単語類似評価部と、関係間の類似度を評価する関係類
似評価部がある。
【0068】以上この実施例では、技術文献のデータベ
ースから類似文献を検索する方式について説明した。本
方式は、各技術分野に存在する技術要素を関係で表し、
関係の類似性を判定する方式である。そして、質問もこ
の関係で記述することにより、質問の前処理が可能であ
ることを示した。
【0069】なお、上記実施例では、同義/類義/シソ
ーラス処理として説明するが、同義語、類義語、シソー
ラスのほかにその他の関連語を追加する関連語処理であ
ってもかまわない。なお、この方式は質問に記述する関
係を一般化することにより、技術文献検索のみならず、
他の文献検索に活用できる。
【0070】
【発明の効果】以上のようにこの発明によれば、人間が
テキスト解析及び検索時におこなっているさまざまな手
法を本システムの機能として組み込んだので、テキスト
の自動解析が高性能に行なわれ、また検索精度が高く、
モレの少ない検索結果を得ることができる。
【図面の簡単な説明】
【図1】本発明の解析ネットワークの構成を示した図。
【図2】本発明に係るテキスト情報抽出装置及びテキス
ト類似照合装置の一例を示す図。
【図3】本発明の概念テンプレートの一例を示す図。
【図4】本発明の補完テンプレートの一例を示す図。
【図5】本発明のテキスト情報抽出方法を示す図。
【図6】テキスト情報抽出方法の具体例を示す図。
【図7】解析ネットワークの他の例を示す図。
【図8】解析ネットワークのその他の例を示す図。
【図9】本発明のテキスト類似照合方法を示す図。
【図10】本発明の類似性判定部の動作を示す図。
【図11】本発明の類似性判定の具体例を示す図。
【図12】本発明のテキスト検索装置を示す図。
【図13】本発明の先行特許要約文の一例を示す図。
【図14】本発明のテキスト解析部による形態素解析処
理後の先行特許要約文の一例を示す図。
【図15】本発明のテキスト解析部による同義/類義/
シソーラス処理後の先行特許要約文の一例を示す図。
【図16】本発明の質問解析部による質問形式の一例を
示す図。
【図17】本発明の質問解析部による形態素解析処理後
の解析ネットワークの一例を示す図。
【図18】本発明の質問解析部による同義/類義/シソ
ーラス処理後の解析ネットワークの一例を示す図。
【図19】本発明の材料テンプレートの一例を示す図。
【図20】本発明の材料テンプレートのフォーマット例
を示す図。
【図21】本発明の質問解析部による補完処理後の解析
ネットワークの一例を示す図。
【図22】本発明の類似判定部のキーワード検索の判定
結果の一例を示す図。
【図23】本発明の類似判定部のキーワード検索の判定
結果の一例を示す図。
【図24】本発明の類似判定部のキーワード検索の判定
結果の一例を示す図。
【図25】本発明の類似判定部の構成図。
【符号の説明】
1  入力文章 2  字切りリスト 3  解析ネットワーク 4  同義類義処理された解析ネットワーク5  補完
された解析ネットワーク 6  解析ネットワーク 10  用語比較 11  用語ペア比較 12  行比較 30  特許データベース 40  知識ベース 50  補完語リスト 60  テキスト解析部 70  質問解析部 80  類似判定部

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】  以下の要素を有するテキスト情報抽出
    装置(a)テキストを入力する入力部、(b)入力され
    たテキストを解析し、テキストを構成する要素と要素の
    関係を抽出して、各要素とその関係を記憶した解析ネッ
    トワークを作成する展開部、(c)所定の用語に対して
    、その用語の同義語/類義語/シソーラス等の関連語を
    記憶する関連語辞書、(d)展開部により作成された解
    析ネットワークの要素が関連語辞書に記憶された関連語
    と一致するとき、関連語辞書に記憶されたその関連語を
    解析ネットワークに補完する関連語処理部、(e)解析
    ネットワークを記憶装置あるいは表示装置に出力する出
    力部。
  2. 【請求項2】  以下の要素を有するテキスト情報抽出
    装置(a)テキストを入力する入力部、(b)入力され
    たテキストを解析し、テキストを構成する要素と要素の
    関係を抽出して、各要素とその関係を記憶した解析ネッ
    トワークを作成する展開部、(c)所定の用語に対して
    、その用語の同義語/類義語/シソーラス等の関連語を
    記憶する関連語辞書、(d)展開部により作成された解
    析ネットワークの要素が関連語辞書に記憶された関連語
    と一致するとき、関連語辞書に記憶されたその関連語を
    関連語を解析ネットワークに補完する関連語処理部、(
    e)テキストの内容に関連する情報をあらかじめ要素と
    その関係という形で記憶しておく概念テンプレート、(
    f)所定の用語に対して、その用語を補完する事項を要
    素とその関係という形で記憶しておく補完テンプレート
    、(g)展開部により作成された解析ネットワークと概
    念テンプレートを照合して類否を記憶する照合部、(h
    )展開部により作成された解析ネットワークの要素が補
    完テンプレートに記憶された用語と一致するとき、補完
    テンプレートに記憶されたその用語を補完する事項を解
    析ネットワークとして補完する補完部、(i)解析ネッ
    トワークを記憶装置あるいは表示装置に出力する出力部
  3. 【請求項3】  以下の要素を有するテキスト類似照合
    装置(a)少なくともひとつのテキストからテキストを
    構成する要素の関係を抽出し、各要素と要素間関係を解
    析ネットワークとしてあらかじめ記憶しておく解析ネッ
    トワークベース、(b)比較したいテキストの解析ネッ
    トワークを入力する解析ネットワーク入力部、(c)解
    析ネットワークベースの解析ネットワークと解析ネット
    ワーク入力部から入力された解析ネットワークの類似性
    を要素及び要素間関係から判定する類似性判定部、(d
    )類似性判定部により判定された結果を出力する出力部
  4. 【請求項4】  以下の工程を有するテキスト情報抽出
    方法(a)テキストを入力する入力工程、(b)入力さ
    れたテキストを辞書を用いて解析し、抽出された名詞を
    ひとつの要素とし、動詞をひとつの関係とし、要素と関
    係からなる組をひとつ以上有する解析ネットワークを作
    成する展開工程、(c)抽出された要素をもとに、関連
    語辞書により、解析ネットワークに関連語を追加する関
    連語処理工程、(d)解析ネットワークを出力する出力
    工程。
  5. 【請求項5】  以下の工程を有するテキスト情報抽出
    方法(a)テキストを入力する入力工程、(b)入力さ
    れたテキストを辞書を用いて解析し、抽出された名詞を
    ひとつの要素とし、動詞をひとつの関係とし、要素と関
    係からなる組をひとつ以上有する解析ネットワークを作
    成する展開工程、(c)抽出された要素をもとに、関連
    語辞書により、解析ネットワークに関連語を追加する関
    連語処理工程、(d)作成された解析ネットワークの各
    組が、特徴あるものであるかを、すでに登録されている
    概念テンプレート内の組と比較して照合する照合工程、
    (e)作成された解析ネットワークにある要素をもとに
    、その要素を補完する要素があるかを調べ、補完する要
    素がある場合はこれを解析ネットワークに追加する補完
    工程、(f)解析ネットワークを出力する出力工程。
  6. 【請求項6】  以下の工程を有するテキスト類似照合
    方法(a)テキストを構成する要素と要素間関係をひと
    組以上登録した解析ネットワークをひとつ以上記憶する
    解析ネットワーク生成工程、(b)比較するテキストの
    解析ネットワークを作成し入力する入力工程、(c)解
    析ネットワークベースの解析ネットワークと入力された
    解析ネットワークの要素と要素間関係をそれぞれの重み
    づけをもって比較しテキストの類似性を判定する判定工
    程、(d)判定工程の結果を出力する出力工程。
  7. 【請求項7】  以下の要素を有するテキスト検索シス
    テム(a)検索されるテキストを記憶するデータベース
    、(b)テキストを形態素解析して関連語を補完した補
    完語リストを記憶する補完語リストベース、(c)質問
    を入力し、検索のためのキーワードとその関係を出力す
    る質問解析部、(d)上記データベースのテキストを質
    問解析部からのキーワードを用いて検索する第1の検索
    手段を有するとともに、少なくとも以下の第2、第3、
    第4の検索手段のいずれかを有する類似判定部、(d1
    )補完語リストベースの補完語リストと第1の検索手段
    により検索されたテキストに対応する補完語リストのい
    ずれかに対して、質問解析部からのキーワードを用いて
    検索を行なう第2の検索手段、(d2)補完語リストベ
    ースの補完語リストと、第1の検索手段により検索され
    たテキストに対応する補完語リストと、第2の検索手段
    により検索されたテキストに対応する補完語リストのい
    ずれかに対して、質問解析部からのキーワードとその関
    係がそのテキストに正しく存在するか判定して検索する
    第3の検索手段、(d3)補完語リストベースの補完語
    リストと、第1の検索手段により検索されたテキストに
    対応する補完語リストと、第2の検索手段により検索さ
    れたテキストに対応する補完語リストと、第3の検索手
    段により検索されたテキストに対応する補完語リストの
    いずれかに対して、構文解析、意味解析することにより
    、質問解析部からの関係と類似する関係が補完語リスト
    中に存在するかを判定して検索する第4の検索手段。
  8. 【請求項8】  以下の要素を有するテキスト検索シス
    テム(a)照合するテキストを形態素解析して得られ単
    語をキーワードとして抽出するキーワード手段、(b)
    少なくとも一方のテキストから抽出されたキーワードに
    対して同義語/類義語/シソーラス等のもとの単語と類
    似度の異なる関連語をキーワードとして補完して補完す
    る関連語手段、(c)一方のテキストのキーワードと他
    方のテキストのキーワードを用いてキーワードの同一性
    を判定する判定部、(d)判定部により同一性が判定さ
    れたキーワードに対して、少なくとも以下の評価手段の
    いずれかを有する評価部、(d1)同一性があると判定
    されたキーワードがもとの単語であるか、同義語か類義
    語かなどの補完語の類似度に合わせて類似度の重み付け
    をかえる第1の評価手段、(d2)キーワードの前方一
    致、後方一致、中間一致などの部分的な一致で、類似度
    の重み付けをかえる第2の評価手段、(d3)あらかじ
    めキーワードに重要度を割り当てておき、その重要度に
    より重み付けをかえる第3の評価手段。
  9. 【請求項9】  以下の要素を有するテキスト解析装置
    (a)テキストを記憶するデータベース、(b)テキス
    トを形態素解析して、この形態素解析されたテキストに
    少なくとも同義語と類義語とシソーラスのいずれかを補
    完語として任意に複数回追加し、この補完語が追加され
    たテキストを補完語リストとして出力するテキスト解析
    部、(c)テキスト解析部からの補完語リストを入力し
    て記憶する補完語リストベース。
  10. 【請求項10】  以下の要素を有する質問解析装置(
    a)質問を要素と関係という項目で表した解析ネットワ
    ークを入力する入力処理部、(b)解析ネットワークの
    項目に入力されたテキストを形態素解析する形態素解析
    処理部、(c)形態素解析処理部により処理された解析
    ネットワークの項目の単語に対して、少なくとも同義語
    と類義語とシソーラスのいずれかを関連語として追加す
    る関連語処理部、(d)少なくとも、上記形態素解析処
    理部と関連語処理部で処理されたいずれかの解析ネット
    ワークから、検索条件となるキーワードと関係を抽出す
    る抽出部。
  11. 【請求項11】  以下の要素を有する質問解析装置(
    a)質問を要素と関係という項目で表した解析ネットワ
    ークを入力する入力処理部、(b)解析ネットワークの
    項目に入力されたテキストを形態素解析する形態素解析
    処理部、(c)形態素解析処理部により処理された解析
    ネットワークの項目の単語に対して、少なくとも同義語
    と類義語とシソーラスのいずれかを関連語として追加す
    る関連語処理部、(d)少なくとも、上記形態素解析処
    理部と関連語処理部で処理されたいずれかの解析ネット
    ワークから、検索条件となるキーワードと関係を抽出す
    る抽出部、(e)所定の用語もしくは関係に対して、そ
    の用語もしくは関係を補完する別の用語もしくは関係を
    記憶しておく補完テンプレート、(f)上記抽出部から
    得られた関係に対して、補完テンプレートに記憶された
    関係もしくは用語と一致するとき、補完テンプレートに
    記憶された関係もしくは用語を、解析ネットワークから
    得られる検索条件となるキーワード、関係に追加する質
    問補完処理部。
JP3241327A 1991-01-30 1991-09-20 テキスト情報抽出装置とテキスト類似照合装置とテキスト検索システムとテキスト情報抽出方法とテキスト類似照合方法、及び、質問解析装置 Expired - Fee Related JP2943447B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP3241327A JP2943447B2 (ja) 1991-01-30 1991-09-20 テキスト情報抽出装置とテキスト類似照合装置とテキスト検索システムとテキスト情報抽出方法とテキスト類似照合方法、及び、質問解析装置
US07/826,090 US5297039A (en) 1991-01-30 1992-01-27 Text search system for locating on the basis of keyword matching and keyword relationship matching

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP3-9861 1991-01-30
JP986191 1991-01-30
JP3241327A JP2943447B2 (ja) 1991-01-30 1991-09-20 テキスト情報抽出装置とテキスト類似照合装置とテキスト検索システムとテキスト情報抽出方法とテキスト類似照合方法、及び、質問解析装置

Publications (2)

Publication Number Publication Date
JPH04357568A true JPH04357568A (ja) 1992-12-10
JP2943447B2 JP2943447B2 (ja) 1999-08-30

Family

ID=26344671

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3241327A Expired - Fee Related JP2943447B2 (ja) 1991-01-30 1991-09-20 テキスト情報抽出装置とテキスト類似照合装置とテキスト検索システムとテキスト情報抽出方法とテキスト類似照合方法、及び、質問解析装置

Country Status (2)

Country Link
US (1) US5297039A (ja)
JP (1) JP2943447B2 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0601550A2 (en) * 1992-12-10 1994-06-15 Ricoh Company, Ltd Method and apparatus for semantic pattern matching for text retrieval
JPH06274541A (ja) * 1993-03-17 1994-09-30 Nippon Steel Corp 文献検索システム
JPH07152781A (ja) * 1993-11-30 1995-06-16 Canon Inc 文書処理方法とその装置
JPH1049543A (ja) * 1996-08-02 1998-02-20 Matsushita Electric Ind Co Ltd 文書検索装置
JPH1185521A (ja) * 1997-09-12 1999-03-30 Nec Corp 事象解析方法および装置
JP2003162542A (ja) * 2001-11-27 2003-06-06 Mitsubishi Space Software Kk 情報検索装置及び特許情報検索装置
JP2003167894A (ja) * 2001-11-30 2003-06-13 Mitsubishi Space Software Kk 関連語自動抽出方法、関連語自動抽出装置、複数重要語抽出プログラムおよび重要語上下階層関係抽出プログラム
JP2009146397A (ja) * 2007-11-19 2009-07-02 Omron Corp 重要文抽出方法、重要文抽出装置、重要文抽出プログラムおよび記録媒体
JP2010066964A (ja) * 2008-09-10 2010-03-25 Kobe Steel Ltd 文検索装置,文検索プログラム,文検索方法
JP2015130111A (ja) * 2014-01-08 2015-07-16 日本放送協会 関連語抽出装置、及びプログラム

Families Citing this family (210)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5640552A (en) * 1990-05-29 1997-06-17 Franklin Electronic Publishers, Incorporated Method and apparatus for providing multi-level searching in an electronic book
US5604898A (en) * 1992-05-07 1997-02-18 Nec Corporation Database enquiry system
KR100291372B1 (ko) * 1992-05-29 2001-06-01 이데이 노부유끼 전자 사전 장치
US5742834A (en) * 1992-06-24 1998-04-21 Canon Kabushiki Kaisha Document processing apparatus using a synonym dictionary
JP3025724B2 (ja) * 1992-11-24 2000-03-27 富士通株式会社 類義語生成処理方法
US5798785A (en) * 1992-12-09 1998-08-25 Discovery Communications, Inc. Terminal for suggesting programs offered on a television program delivery system
US5873056A (en) * 1993-10-12 1999-02-16 The Syracuse University Natural language processing system for semantic vector representation which accounts for lexical ambiguity
JPH07141168A (ja) * 1993-11-19 1995-06-02 Hitachi Ltd 階層仕様情報作成方法
DE69530816T2 (de) * 1994-06-21 2004-04-08 Canon K.K. Textbearbeitungssystem und Verfahren unter Verwendung einer Wissensbasis
AU3734395A (en) * 1994-10-03 1996-04-26 Helfgott & Karas, P.C. A database accessing system
JP2855409B2 (ja) * 1994-11-17 1999-02-10 日本アイ・ビー・エム株式会社 自然言語処理方法及びシステム
JP2809341B2 (ja) 1994-11-18 1998-10-08 松下電器産業株式会社 情報要約方法、情報要約装置、重み付け方法、および文字放送受信装置。
US5642502A (en) * 1994-12-06 1997-06-24 University Of Central Florida Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
US5717913A (en) * 1995-01-03 1998-02-10 University Of Central Florida Method for detecting and extracting text data using database schemas
US5682524A (en) * 1995-05-26 1997-10-28 Starfish Software, Inc. Databank system with methods for efficiently storing non-uniform data records
US5873660A (en) * 1995-06-19 1999-02-23 Microsoft Corporation Morphological search and replace
US5649221A (en) * 1995-09-14 1997-07-15 Crawford; H. Vance Reverse electronic dictionary using synonyms to expand search capabilities
US5721902A (en) * 1995-09-15 1998-02-24 Infonautics Corporation Restricted expansion of query terms using part of speech tagging
US5737734A (en) * 1995-09-15 1998-04-07 Infonautics Corporation Query word relevance adjustment in a search of an information retrieval system
JP3040945B2 (ja) * 1995-11-29 2000-05-15 松下電器産業株式会社 文書検索装置
US5826260A (en) * 1995-12-11 1998-10-20 International Business Machines Corporation Information retrieval system and method for displaying and ordering information based on query element contribution
US5926811A (en) * 1996-03-15 1999-07-20 Lexis-Nexis Statistical thesaurus, method of forming same, and use thereof in query expansion in automated text searching
US5873107A (en) * 1996-03-29 1999-02-16 Apple Computer, Inc. System for automatically retrieving information relevant to text being authored
US6052693A (en) * 1996-07-02 2000-04-18 Harlequin Group Plc System for assembling large databases through information extracted from text sources
US5813002A (en) * 1996-07-31 1998-09-22 International Business Machines Corporation Method and system for linearly detecting data deviations in a large database
WO1998012616A2 (en) 1996-09-23 1998-03-26 Lowrie Mcintosh Defining a uniform subject classification system incorporating document management/records retention functions
US6539430B1 (en) 1997-03-25 2003-03-25 Symantec Corporation System and method for filtering data received by a computer system
US5996011A (en) * 1997-03-25 1999-11-30 Unified Research Laboratories, Inc. System and method for filtering data received by a computer system
US6556713B2 (en) * 1997-07-31 2003-04-29 Canon Kabushiki Kaisha Image processing apparatus and method and storage medium
DE19737939A1 (de) * 1997-08-30 1999-03-04 Steiner Ralf Dr Verfahren und Datenstruktur zur rechnergestützten Verwaltung von Entwicklungen
AU742831B2 (en) * 1997-09-04 2002-01-10 British Telecommunications Public Limited Company Methods and/or systems for selecting data sets
AU1948299A (en) * 1997-12-29 1999-07-19 Infodream Corporation Extraction server for unstructured documents
US6199079B1 (en) * 1998-03-09 2001-03-06 Junglee Corporation Method and system for automatically filling forms in an integrated network based transaction environment
US6643624B2 (en) 1998-03-09 2003-11-04 Yan Philippe Method and system for integrating transaction mechanisms over multiple internet sites
DE19811524A1 (de) * 1998-03-17 1998-11-19 Usu Softwarehaus Unternehmensb Datenverarbeitungssystem
US6321226B1 (en) * 1998-06-30 2001-11-20 Microsoft Corporation Flexible keyboard searching
US6493705B1 (en) * 1998-09-30 2002-12-10 Canon Kabushiki Kaisha Information search apparatus and method, and computer readable memory
US6418429B1 (en) 1998-10-21 2002-07-09 Apple Computer, Inc. Portable browsing interface for information retrieval
US6321192B1 (en) 1998-10-22 2001-11-20 International Business Machines Corporation Adaptive learning method and system that matches keywords using a parsed keyword data structure having a hash index based on an unicode value
US6263333B1 (en) 1998-10-22 2001-07-17 International Business Machines Corporation Method for searching non-tokenized text and tokenized text for matches against a keyword data structure
WO2000026839A1 (en) * 1998-11-04 2000-05-11 Infodream Corporation Advanced model for automatic extraction of skill and knowledge information from an electronic document
AU1380599A (en) * 1998-11-04 2000-05-22 Sullivan Walter III Database system with restricted keyword list and bi-directional keyword translation
GB2359168A (en) * 1998-11-04 2001-08-15 Infodream Corp Advanced model for automatic extraction of skill and knowledge information from an electronic document
US6584464B1 (en) 1999-03-19 2003-06-24 Ask Jeeves, Inc. Grammar template query system
US7016951B1 (en) 1999-04-30 2006-03-21 Mantech Ctx Corporation System and method for network security
US6901402B1 (en) * 1999-06-18 2005-05-31 Microsoft Corporation System for improving the performance of information retrieval-type tasks by identifying the relations of constituents
US6529892B1 (en) * 1999-08-04 2003-03-04 Illinois, University Of Apparatus, method and product for multi-attribute drug comparison
US6665666B1 (en) * 1999-10-26 2003-12-16 International Business Machines Corporation System, method and program product for answering questions using a search engine
US7286984B1 (en) * 1999-11-05 2007-10-23 At&T Corp. Method and system for automatically detecting morphemes in a task classification system using lattices
US7085720B1 (en) * 1999-11-05 2006-08-01 At & T Corp. Method for task classification using morphemes
US8392188B1 (en) 1999-11-05 2013-03-05 At&T Intellectual Property Ii, L.P. Method and system for building a phonotactic model for domain independent speech recognition
US20030191625A1 (en) * 1999-11-05 2003-10-09 Gorin Allen Louis Method and system for creating a named entity language model
US6449627B1 (en) 2000-01-21 2002-09-10 International Business Machines Corp. Volume management method and system for a compilation of content
US7089239B1 (en) 2000-01-21 2006-08-08 International Business Machines Corporation Method and system for preventing mutually exclusive content entities stored in a data repository to be included in the same compilation of content
US7613993B1 (en) 2000-01-21 2009-11-03 International Business Machines Corporation Prerequisite checking in a system for creating compilations of content
US7401097B1 (en) 2000-01-21 2008-07-15 International Business Machines Corporation System and method for creating compilations of content
US8589777B1 (en) * 2000-01-21 2013-11-19 International Business Machines Corporation Method and system for calculating cost of a compilation of content
US7043488B1 (en) 2000-01-21 2006-05-09 International Business Machines Corporation Method and system for storing hierarchical content objects in a data repository
US6611840B1 (en) 2000-01-21 2003-08-26 International Business Machines Corporation Method and system for removing content entity object in a hierarchically structured content object stored in a database
US6839701B1 (en) 2000-01-21 2005-01-04 International Business Machines Hitmask for querying hierarchically related content entities
US6986102B1 (en) 2000-01-21 2006-01-10 International Business Machines Corporation Method and configurable model for storing hierarchical data in a non-hierarchical data repository
US7346844B1 (en) 2000-01-21 2008-03-18 International Business Machines, Corporation Method and system for moving content in a content object stored in a data repository
US7340481B1 (en) 2000-01-21 2008-03-04 International Business Machines Corp. Method and system for adding user-provided content to a content object stored in a data repository
US7076494B1 (en) 2000-01-21 2006-07-11 International Business Machines Corporation Providing a functional layer for facilitating creation and manipulation of compilations of content
US7356766B1 (en) 2000-01-21 2008-04-08 International Business Machines Corp. Method and system for adding content to a content object stored in a data repository
US20010049707A1 (en) * 2000-02-29 2001-12-06 Tran Bao Q. Systems and methods for generating intellectual property
US20020049705A1 (en) * 2000-04-19 2002-04-25 E-Base Ltd. Method for creating content oriented databases and content files
US20010049596A1 (en) * 2000-05-30 2001-12-06 Adam Lavine Text to animation process
US7716163B2 (en) * 2000-06-06 2010-05-11 Microsoft Corporation Method and system for defining semantic categories and actions
US7712024B2 (en) * 2000-06-06 2010-05-04 Microsoft Corporation Application program interfaces for semantically labeling strings and providing actions based on semantically labeled strings
US7770102B1 (en) 2000-06-06 2010-08-03 Microsoft Corporation Method and system for semantically labeling strings and providing actions based on semantically labeled strings
US7421645B2 (en) * 2000-06-06 2008-09-02 Microsoft Corporation Method and system for providing electronic commerce actions based on semantically labeled strings
US7788602B2 (en) * 2000-06-06 2010-08-31 Microsoft Corporation Method and system for providing restricted actions for recognized semantic categories
US6757692B1 (en) * 2000-06-09 2004-06-29 Northrop Grumman Corporation Systems and methods for structured vocabulary search and classification
US6687689B1 (en) 2000-06-16 2004-02-03 Nusuara Technologies Sdn. Bhd. System and methods for document retrieval using natural language-based queries
DE10031351A1 (de) * 2000-06-28 2002-01-17 Guru Netservices Gmbh Verfahren zur automatischen Recherche
US6738759B1 (en) * 2000-07-07 2004-05-18 Infoglide Corporation, Inc. System and method for performing similarity searching using pointer optimization
US6810376B1 (en) * 2000-07-11 2004-10-26 Nusuara Technologies Sdn Bhd System and methods for determining semantic similarity of sentences
US7376635B1 (en) * 2000-07-21 2008-05-20 Ford Global Technologies, Llc Theme-based system and method for classifying documents
US6691107B1 (en) * 2000-07-21 2004-02-10 International Business Machines Corporation Method and system for improving a text search
US7702541B2 (en) * 2000-08-01 2010-04-20 Yahoo! Inc. Targeted e-commerce system
US7464086B2 (en) * 2000-08-01 2008-12-09 Yahoo! Inc. Metatag-based datamining
US20020035571A1 (en) * 2000-09-15 2002-03-21 Coult John H Digital patent marking method
US7778817B1 (en) * 2000-09-30 2010-08-17 Intel Corporation Method and apparatus for determining text passage similarity
US7027974B1 (en) 2000-10-27 2006-04-11 Science Applications International Corporation Ontology-based parser for natural language processing
US7346491B2 (en) * 2001-01-04 2008-03-18 Agency For Science, Technology And Research Method of text similarity measurement
US6766316B2 (en) 2001-01-18 2004-07-20 Science Applications International Corporation Method and system of ranking and clustering for document indexing and retrieval
JP2002278977A (ja) * 2001-03-22 2002-09-27 Fujitsu Ltd 質問回答装置、質問回答方法及び質問回答プログラム
US7085753B2 (en) 2001-03-22 2006-08-01 E-Nvent Usa Inc. Method and system for mapping and searching the Internet and displaying the results in a visual form
US7778816B2 (en) * 2001-04-24 2010-08-17 Microsoft Corporation Method and system for applying input mode bias
US20100027430A1 (en) * 2001-04-30 2010-02-04 Netwitness Corporation Apparatus and Method for Network Analysis
WO2002088968A1 (en) * 2001-04-30 2002-11-07 Ctx Corporation Apparatus and method for network analysis
US20020169743A1 (en) * 2001-05-08 2002-11-14 David Arnold Web-based method and system for identifying and searching patents
US7269546B2 (en) * 2001-05-09 2007-09-11 International Business Machines Corporation System and method of finding documents related to other documents and of finding related words in response to a query to refine a search
US20020169872A1 (en) * 2001-05-14 2002-11-14 Hiroshi Nomiyama Method for arranging information, information processing apparatus, storage media and program tranmission apparatus
EP1274046A1 (en) * 2001-07-03 2003-01-08 FunMail, Inc Method and system for generating animations from text
JP4217033B2 (ja) * 2001-07-11 2009-01-28 ローム アンド ハース カンパニー データ処理システム
US8078545B1 (en) 2001-09-24 2011-12-13 Aloft Media, Llc System, method and computer program product for collecting strategic patent data associated with an identifier
US7346614B2 (en) * 2001-10-17 2008-03-18 Japan Science And Technology Corporation Information searching method, information searching program, and computer-readable recording medium on which information searching program is recorded
US6985908B2 (en) * 2001-11-01 2006-01-10 Matsushita Electric Industrial Co., Ltd. Text classification apparatus
US20030125929A1 (en) * 2001-12-10 2003-07-03 Thomas Bergstraesser Services for context-sensitive flagging of information in natural language text and central management of metadata relating that information over a computer network
JP2003203076A (ja) * 2001-12-28 2003-07-18 Celestar Lexico-Sciences Inc 知見探索装置、知見探索方法、プログラム、および、記録媒体
US7325194B2 (en) 2002-05-07 2008-01-29 Microsoft Corporation Method, system, and apparatus for converting numbers between measurement systems based upon semantically labeled strings
US7707496B1 (en) 2002-05-09 2010-04-27 Microsoft Corporation Method, system, and apparatus for converting dates between calendars and languages based upon semantically labeled strings
US20040025048A1 (en) * 2002-05-20 2004-02-05 Porcari Damian O. Method and system for role-based access control to a collaborative online legal workflow tool
US7707024B2 (en) * 2002-05-23 2010-04-27 Microsoft Corporation Method, system, and apparatus for converting currency values based upon semantically labeled strings
US7742048B1 (en) 2002-05-23 2010-06-22 Microsoft Corporation Method, system, and apparatus for converting numbers based upon semantically labeled strings
US7281245B2 (en) * 2002-06-05 2007-10-09 Microsoft Corporation Mechanism for downloading software components from a remote source for use by a local software application
US7827546B1 (en) 2002-06-05 2010-11-02 Microsoft Corporation Mechanism for downloading software components from a remote source for use by a local software application
US7356537B2 (en) * 2002-06-06 2008-04-08 Microsoft Corporation Providing contextually sensitive tools and help content in computer-generated documents
US20030229470A1 (en) * 2002-06-10 2003-12-11 Nenad Pejic System and method for analyzing patent-related information
US7716676B2 (en) * 2002-06-25 2010-05-11 Microsoft Corporation System and method for issuing a message to a program
US7392479B2 (en) * 2002-06-27 2008-06-24 Microsoft Corporation System and method for providing namespace related information
US7220260B2 (en) * 2002-06-27 2007-05-22 Gyrus Medical Limited Electrosurgical system
US20040001099A1 (en) * 2002-06-27 2004-01-01 Microsoft Corporation Method and system for associating actions with semantic labels in electronic documents
US7209915B1 (en) 2002-06-28 2007-04-24 Microsoft Corporation Method, system and apparatus for routing a query to one or more providers
US7181451B2 (en) * 2002-07-03 2007-02-20 Word Data Corp. Processing input text to generate the selectivity value of a word or word group in a library of texts in a field is related to the frequency of occurrence of that word or word group in library
US20040006547A1 (en) * 2002-07-03 2004-01-08 Dehlinger Peter J. Text-processing database
US7386442B2 (en) * 2002-07-03 2008-06-10 Word Data Corp. Code, system and method for representing a natural-language text in a form suitable for text manipulation
AU2002346060A1 (en) * 2002-07-03 2004-01-23 Iotapi.Com, Inc. Text-processing code, system and method
US7024408B2 (en) 2002-07-03 2006-04-04 Word Data Corp. Text-classification code, system and method
US20040006459A1 (en) * 2002-07-05 2004-01-08 Dehlinger Peter J. Text-searching system and method
US7003516B2 (en) * 2002-07-03 2006-02-21 Word Data Corp. Text representation and method
US7016895B2 (en) 2002-07-05 2006-03-21 Word Data Corp. Text-classification system and method
US20040054520A1 (en) * 2002-07-05 2004-03-18 Dehlinger Peter J. Text-searching code, system and method
AU2002368316A1 (en) * 2002-10-24 2004-06-07 Agency For Science, Technology And Research Method and system for discovering knowledge from text documents
US7743061B2 (en) * 2002-11-12 2010-06-22 Proximate Technologies, Llc Document search method with interactively employed distance graphics display
US20040098380A1 (en) * 2002-11-19 2004-05-20 Dentel Stephen D. Method, system and apparatus for providing a search system
TWI290686B (en) * 2002-12-31 2007-12-01 Hon Hai Prec Ind Co Ltd System and method for generating information report
TWI306565B (en) * 2002-12-31 2009-02-21 Hon Hai Prec Ind Co Ltd System and method for visually mining information
US7111000B2 (en) * 2003-01-06 2006-09-19 Microsoft Corporation Retrieval of structured documents
US7783614B2 (en) * 2003-02-13 2010-08-24 Microsoft Corporation Linking elements of a document to corresponding fields, queries and/or procedures in a database
US20040172584A1 (en) * 2003-02-28 2004-09-02 Microsoft Corporation Method and system for enhancing paste functionality of a computer software application
US7711550B1 (en) 2003-04-29 2010-05-04 Microsoft Corporation Methods and system for recognizing names in a computer-generated document and for providing helpful actions associated with recognized names
US7558841B2 (en) 2003-05-14 2009-07-07 Microsoft Corporation Method, system, and computer-readable medium for communicating results to a data query in a computer network
AU2003290395A1 (en) * 2003-05-14 2004-12-03 Dharamdas Gautam Goradia A system of interactive dictionary
US20040236753A1 (en) * 2003-05-20 2004-11-25 Porcari Damian O. Method and system for automated messaging in an online legal workflow tool
US20040243560A1 (en) * 2003-05-30 2004-12-02 International Business Machines Corporation System, method and computer program product for performing unstructured information management and automatic text analysis, including an annotation inverted file system facilitating indexing and searching
US7139752B2 (en) * 2003-05-30 2006-11-21 International Business Machines Corporation System, method and computer program product for performing unstructured information management and automatic text analysis, and providing multiple document views derived from different document tokenizations
US7146361B2 (en) * 2003-05-30 2006-12-05 International Business Machines Corporation System, method and computer program product for performing unstructured information management and automatic text analysis, including a search operator functioning as a Weighted AND (WAND)
US20040243556A1 (en) * 2003-05-30 2004-12-02 International Business Machines Corporation System, method and computer program product for performing unstructured information management and automatic text analysis, and including a document common analysis system (CAS)
US7383257B2 (en) * 2003-05-30 2008-06-03 International Business Machines Corporation Text explanation for on-line analytic processing events
US7734627B1 (en) 2003-06-17 2010-06-08 Google Inc. Document similarity detection
US7739588B2 (en) * 2003-06-27 2010-06-15 Microsoft Corporation Leveraging markup language data for semantically labeling text strings and data and for providing actions based on semantically labeled text strings and data
US7499913B2 (en) * 2004-01-26 2009-03-03 International Business Machines Corporation Method for handling anchor text
US7424467B2 (en) * 2004-01-26 2008-09-09 International Business Machines Corporation Architecture for an indexer with fixed width sort and variable width sort
US8296304B2 (en) * 2004-01-26 2012-10-23 International Business Machines Corporation Method, system, and program for handling redirects in a search engine
US7293005B2 (en) * 2004-01-26 2007-11-06 International Business Machines Corporation Pipelined architecture for global analysis and index building
US20050198026A1 (en) * 2004-02-03 2005-09-08 Dehlinger Peter J. Code, system, and method for generating concepts
US20050182617A1 (en) * 2004-02-17 2005-08-18 Microsoft Corporation Methods and systems for providing automated actions on recognized text strings in a computer-generated document
US20060036451A1 (en) 2004-08-10 2006-02-16 Lundberg Steven W Patent mapping
US20060047656A1 (en) * 2004-09-01 2006-03-02 Dehlinger Peter J Code, system, and method for retrieving text material from a library of documents
US7461064B2 (en) * 2004-09-24 2008-12-02 International Buiness Machines Corporation Method for searching documents for ranges of numeric values
WO2006128183A2 (en) 2005-05-27 2006-11-30 Schwegman, Lundberg, Woessner & Kluth, P.A. Method and apparatus for cross-referencing important ip relationships
US7689411B2 (en) * 2005-07-01 2010-03-30 Xerox Corporation Concept matching
US8417693B2 (en) * 2005-07-14 2013-04-09 International Business Machines Corporation Enforcing native access control to indexed documents
WO2007014341A2 (en) 2005-07-27 2007-02-01 Schwegman, Lundberg & Woessner, P.A. Patent mapping
US7992085B2 (en) 2005-09-26 2011-08-02 Microsoft Corporation Lightweight reference user interface
US7788590B2 (en) * 2005-09-26 2010-08-31 Microsoft Corporation Lightweight reference user interface
JP4172801B2 (ja) * 2005-12-02 2008-10-29 インターナショナル・ビジネス・マシーンズ・コーポレーション テキストからキーワードを検索する効率的なシステム、および、その方法
US20070168345A1 (en) * 2006-01-17 2007-07-19 Andrew Gibbs System and method of identifying subject matter experts
US20070198470A1 (en) * 2006-01-27 2007-08-23 Gordon Freedman Method of reducing search space complexity using suggested search terms with display of an associated reduction factor
US7739225B2 (en) 2006-02-09 2010-06-15 Ebay Inc. Method and system to analyze aspect rules based on domain coverage of an aspect-value pair
US7725417B2 (en) * 2006-02-09 2010-05-25 Ebay Inc. Method and system to analyze rules based on popular query coverage
US7640234B2 (en) * 2006-02-09 2009-12-29 Ebay Inc. Methods and systems to communicate information
US9443333B2 (en) * 2006-02-09 2016-09-13 Ebay Inc. Methods and systems to communicate information
US8380698B2 (en) * 2006-02-09 2013-02-19 Ebay Inc. Methods and systems to generate rules to identify data items
US7739226B2 (en) * 2006-02-09 2010-06-15 Ebay Inc. Method and system to analyze aspect rules based on domain coverage of the aspect rules
US7849047B2 (en) 2006-02-09 2010-12-07 Ebay Inc. Method and system to analyze domain rules based on domain coverage of the domain rules
US20080065370A1 (en) * 2006-09-11 2008-03-13 Takashi Kimoto Support apparatus for object-oriented analysis and design
JP5076417B2 (ja) * 2006-09-15 2012-11-21 富士ゼロックス株式会社 概念ネットワーク生成システム、概念ネットワーク生成方法及び概念ネットワーク生成プログラム
JP4240329B2 (ja) * 2006-09-21 2009-03-18 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム
TW200837582A (en) * 2007-03-13 2008-09-16 Sunonwealth Electr Mach Ind Co Patent searching method and system thereof
TW200837583A (en) * 2007-03-13 2008-09-16 Sunonwealth Electr Mach Ind Co Patent searching method
TW200917063A (en) * 2007-10-02 2009-04-16 Sunonwealth Electr Mach Ind Co Survey method for a patent searching result
US7788292B2 (en) * 2007-12-12 2010-08-31 Microsoft Corporation Raising the baseline for high-precision text classifiers
US20090240498A1 (en) * 2008-03-19 2009-09-24 Microsoft Corporation Similiarity measures for short segments of text
US7970808B2 (en) * 2008-05-05 2011-06-28 Microsoft Corporation Leveraging cross-document context to label entity
US9092517B2 (en) * 2008-09-23 2015-07-28 Microsoft Technology Licensing, Llc Generating synonyms based on query log data
US20100131513A1 (en) 2008-10-23 2010-05-27 Lundberg Steven W Patent mapping
US8463806B2 (en) 2009-01-30 2013-06-11 Lexisnexis Methods and systems for creating and using an adaptive thesaurus
US20100293179A1 (en) * 2009-05-14 2010-11-18 Microsoft Corporation Identifying synonyms of entities using web search
US8533203B2 (en) * 2009-06-04 2013-09-10 Microsoft Corporation Identifying synonyms of entities using a document collection
US8745039B2 (en) * 2009-09-25 2014-06-03 International Business Machines Corporation Method and system for user guided search navigation
US8661361B2 (en) 2010-08-26 2014-02-25 Sitting Man, Llc Methods, systems, and computer program products for navigating between visual components
US8780130B2 (en) 2010-11-30 2014-07-15 Sitting Man, Llc Methods, systems, and computer program products for binding attributes between visual components
US9715332B1 (en) 2010-08-26 2017-07-25 Cypress Lake Software, Inc. Methods, systems, and computer program products for navigating between visual components
US10397639B1 (en) 2010-01-29 2019-08-27 Sitting Man, Llc Hot key systems and methods
US20110202484A1 (en) * 2010-02-18 2011-08-18 International Business Machines Corporation Analyzing parallel topics from correlated documents
CN102193936B (zh) * 2010-03-09 2013-09-18 阿里巴巴集团控股有限公司 一种数据分类的方法及装置
US9600566B2 (en) 2010-05-14 2017-03-21 Microsoft Technology Licensing, Llc Identifying entity synonyms
US8434001B2 (en) 2010-06-03 2013-04-30 Rhonda Enterprises, Llc Systems and methods for presenting a content summary of a media item to a user based on a position within the media item
US9326116B2 (en) 2010-08-24 2016-04-26 Rhonda Enterprises, Llc Systems and methods for suggesting a pause position within electronic text
CN102411583B (zh) * 2010-09-20 2013-09-18 阿里巴巴集团控股有限公司 一种文本匹配方法及装置
US9069754B2 (en) 2010-09-29 2015-06-30 Rhonda Enterprises, Llc Method, system, and computer readable medium for detecting related subgroups of text in an electronic document
CN102750278B (zh) * 2011-04-18 2017-04-26 深圳市世纪光速信息技术有限公司 信息的获取方法和装置
US9904726B2 (en) 2011-05-04 2018-02-27 Black Hills IP Holdings, LLC. Apparatus and method for automated and assisted patent claim mapping and expense planning
US20130086033A1 (en) 2011-10-03 2013-04-04 Black Hills Ip Holdings, Llc Systems, methods and user interfaces in a patent management system
US20130086080A1 (en) 2011-10-03 2013-04-04 Steven W. Lundberg System and method for information disclosure statement management and prior art cross-citation control
US8745019B2 (en) 2012-03-05 2014-06-03 Microsoft Corporation Robust discovery of entity synonyms using query logs
US10032131B2 (en) 2012-06-20 2018-07-24 Microsoft Technology Licensing, Llc Data services for enterprises leveraging search system data assets
US9594831B2 (en) 2012-06-22 2017-03-14 Microsoft Technology Licensing, Llc Targeted disambiguation of named entities
US11461862B2 (en) 2012-08-20 2022-10-04 Black Hills Ip Holdings, Llc Analytics generation for patent portfolio management
US9229924B2 (en) 2012-08-24 2016-01-05 Microsoft Technology Licensing, Llc Word detection and domain dictionary recommendation
US9069882B2 (en) * 2013-01-22 2015-06-30 International Business Machines Corporation Mapping and boosting of terms in a format independent data retrieval query
US9767190B2 (en) 2013-04-23 2017-09-19 Black Hills Ip Holdings, Llc Patent claim scope evaluator
US9880997B2 (en) * 2014-07-23 2018-01-30 Accenture Global Services Limited Inferring type classifications from natural language text
CN107045524B (zh) * 2016-12-30 2019-12-27 中央民族大学 一种网络文本舆情分类的方法及系统
TWI698794B (zh) * 2018-10-23 2020-07-11 雲拓科技有限公司 專利文件的圖形資料之導覽內容的自動化得出顯示設備
US11568153B2 (en) 2020-03-05 2023-01-31 Bank Of America Corporation Narrative evaluator

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6175952A (ja) * 1984-09-21 1986-04-18 Nec Corp 文書入力処理方式
US5123103A (en) * 1986-10-17 1992-06-16 Hitachi, Ltd. Method and system of retrieving program specification and linking the specification by concept to retrieval request for reusing program parts
JPS63159976A (ja) * 1986-12-24 1988-07-02 Brother Ind Ltd デ−タ処理装置
JPS6421624A (en) * 1987-07-17 1989-01-25 Nippon Telegraph & Telephone Japanese document retrieval system

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0601550A2 (en) * 1992-12-10 1994-06-15 Ricoh Company, Ltd Method and apparatus for semantic pattern matching for text retrieval
EP0601550A3 (en) * 1992-12-10 1994-10-26 Ricoh Kk Method and apparatus for comparing semantic forms for text recovery.
JPH06274541A (ja) * 1993-03-17 1994-09-30 Nippon Steel Corp 文献検索システム
JPH07152781A (ja) * 1993-11-30 1995-06-16 Canon Inc 文書処理方法とその装置
JPH1049543A (ja) * 1996-08-02 1998-02-20 Matsushita Electric Ind Co Ltd 文書検索装置
JPH1185521A (ja) * 1997-09-12 1999-03-30 Nec Corp 事象解析方法および装置
JP2003162542A (ja) * 2001-11-27 2003-06-06 Mitsubishi Space Software Kk 情報検索装置及び特許情報検索装置
JP2003167894A (ja) * 2001-11-30 2003-06-13 Mitsubishi Space Software Kk 関連語自動抽出方法、関連語自動抽出装置、複数重要語抽出プログラムおよび重要語上下階層関係抽出プログラム
JP2009146397A (ja) * 2007-11-19 2009-07-02 Omron Corp 重要文抽出方法、重要文抽出装置、重要文抽出プログラムおよび記録媒体
JP2010066964A (ja) * 2008-09-10 2010-03-25 Kobe Steel Ltd 文検索装置,文検索プログラム,文検索方法
JP2015130111A (ja) * 2014-01-08 2015-07-16 日本放送協会 関連語抽出装置、及びプログラム

Also Published As

Publication number Publication date
US5297039A (en) 1994-03-22
JP2943447B2 (ja) 1999-08-30

Similar Documents

Publication Publication Date Title
JPH04357568A (ja) テキスト情報抽出装置とテキスト類似照合装置とテキスト検索システムとテキスト情報抽出方法とテキスト類似照合方法、及び、質問解析装置
US7607083B2 (en) Test summarization using relevance measures and latent semantic analysis
Gupta et al. A survey of text question answering techniques
Varma et al. IIIT Hyderabad at TAC 2009.
Suleiman et al. The use of hidden Markov model in natural ARABIC language processing: a survey
Zhang et al. Narrative text classification for automatic key phrase extraction in web document corpora
Figueroa et al. Ensembling classifiers for detecting user intentions behind web queries
CN111581364B (zh) 一种面向医疗领域的中文智能问答短文本相似度计算方法
Hussein Visualizing document similarity using n-grams and latent semantic analysis
CN112307182A (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
Bellare et al. Lightly-supervised attribute extraction
CN113407697A (zh) 深度百科学习的中文医疗问句分类系统
CN115794995A (zh) 目标答案获取方法及相关装置、电子设备和存储介质
JP2008009671A (ja) データ表示装置、データ表示方法及びデータ表示プログラム
CN113177120B (zh) 一种基于中文文本分类的情报快速整编方法
Agrawal et al. Comparative analysis of NLP models for Google Meet Transcript summarization
Singh et al. Deep neural based name entity recognizer and classifier for English language
JPH09319767A (ja) 類義語辞書登録方法
Madaan et al. Indexing of semantic web for efficient question answering system
Laokulrat A survey on question classification techniques for question answering
Das et al. An improvement of Bengali factoid question answering system using unsupervised statistical methods
CN112732885A (zh) 用于问答系统的答案扩展方法、装置及电子设备
Alfarra et al. Graph-based Growing self-organizing map for Single Document Summarization (GGSDS)
Ababneh et al. An efficient framework of utilizing the latent semantic analysis in text extraction
Zhuang Architecture of Knowledge Extraction System based on NLP

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080625

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees