JP2003167898A - 情報検索システム - Google Patents

情報検索システム

Info

Publication number
JP2003167898A
JP2003167898A JP2001369754A JP2001369754A JP2003167898A JP 2003167898 A JP2003167898 A JP 2003167898A JP 2001369754 A JP2001369754 A JP 2001369754A JP 2001369754 A JP2001369754 A JP 2001369754A JP 2003167898 A JP2003167898 A JP 2003167898A
Authority
JP
Japan
Prior art keywords
data
information
sentence
database
subtree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001369754A
Other languages
English (en)
Other versions
JP4005343B2 (ja
Inventor
Sadaji Takai
貞治 高井
Takamitsu Ishioka
隆光 石岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TOKYO SOFT KK
Original Assignee
TOKYO SOFT KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TOKYO SOFT KK filed Critical TOKYO SOFT KK
Priority to JP2001369754A priority Critical patent/JP4005343B2/ja
Publication of JP2003167898A publication Critical patent/JP2003167898A/ja
Application granted granted Critical
Publication of JP4005343B2 publication Critical patent/JP4005343B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 入力された文章に該当する情報単位をデータ
ベースから高い確率で抽出できるようにする。 【解決手段】 文章データSを単文にしてテキストデー
タベース10に格納する。前記単文に対して形態素解析
4と構文解析5を行って、構文木を形成するが、この構
文木の個々の部分木に対してこれに属する単語の述語属
性のデータを付加して構文木データ22を形成する。こ
の構文木データ22と抽出情報データベース9内の情報
単位とから演算処理7を行って、抽出情報データベース
9内の複数の情報単位のうち、前記文章データSが属す
るカテゴリーの情報単位を検索する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力した文章の構
文を解析して、その文章に対応する情報を検索したり、
または前記情報に関連する回答文や確認文などを抽出す
る情報検索システムに関する。
【0002】
【従来の技術】例えば、インターネット上においてデー
タベースから情報を検索するとき、または、コンピュー
タ内で蓄積されたデータベースから情報を検索するとき
には、検索を指示するために入力された入力文章の単語
を解読し、この単語を検索単位として、この単語が含ま
れている情報が前記データベースから検索されるのが一
般的である。
【0003】しかし、単語を単位とした情報検索では、
検索結果となる情報の数が膨大になったり、または実際
に検索しようとする情報と異なる情報が検索されること
になって、必要とする情報を迅速に且つ正確に検索する
ことが困難である。
【0004】また、これはインターネットなどを通じ
て、所定の質問文や注文文などを入力し、サーバーにお
いて前記質問文や注文文に対応する回答文や確認文を抽
出する場合においても同様に迅速で且つ正確な回答を行
うのが難しい。
【0005】また、入力した文章に基づいて情報を検索
するいわゆるデータマイニングの手法として、例えば特
開2001−134575号公報には、入力される文章
を単語に分割して、単語間の係り受け構造を解析した構
文木を形成し、この構文木に基づいて、同じ構文木を含
む情報をデータベースから迅速に検索するシステムが説
明されている。
【0006】
【発明が解決しようとする課題】前記特開2001−1
34575号公報に記載の構文木構造は、例えば「私は
会社に行く。」という文章に対して「私→行く」「会社
→行く」のような構文木を構築しているものであるた
め、データベースから同種の文章を迅速に検索できるよ
うになる。
【0007】しかし、実際の日本語の文章は、肯定と否
定の表現が様々であり、また話者の意図についても多種
多様な表現が用いられる。例えば「本体の交換」を主題
とする文章は「本体を交換してください」「本体を交換
してほしい」「本体を交換してほしくない」などきわめ
て微妙な言い回しが行われることが多い。
【0008】したがって、入力された文章を形態素解析
し、この解析により抽出された単語を中心とした単純な
構文木データを構築するだけでは、入力された文章が持
つ意味を的確に分析したことにならず、データベースか
らの情報の検索精度を高くするのに限界がある。
【0009】また、インターネットを介してサーバーへ
所定の質問文や注文文を送信し、その質問文や注文文を
解析してその回答文や確認文などを検索するシステムに
おいては、同じ内容の質問や同じ内容の注文事項であっ
ても様々な表現の文章で入力されることが多い。そのた
め、個々の質問文や注文文をカテゴリー別に正確に分類
するのが難しく、よって回答文や確認文などをデータベ
ースから正確に検索するのが難しい。
【0010】本発明は上記従来の課題を解決するもので
あり、データベースから情報を検索する際、または質問
文や注文文などをカテゴリー別に分類する際に、正確な
検索ができる情報検索システムを提供することを目的と
している。
【0011】
【課題を解決するための手段】本発明は、以下の(a)
〜(d)の手段を有することを特徴とする情報検索シス
テムである。
【0012】(a)入力された文章データに辞書のデー
タベースを適用して、前記文章データを単語と品詞属性
とに解析して形態素解析データを生成する手段、(b)
前記形態素解析データに基づいて、前記単語を少なくと
も1つ含む文節を解読するとともに、文節間の係り受け
関係を解析する手段と、(c)係り受け関係にある複数
の文節およびこの文節ごとの述語属性と、さらに前記文
節間の関係属性を付加した部分木データを生成し、さら
に関係のある複数の前記部分木からなる構文木を構築し
て構文木データを生成する手段、(d)前記部分木デー
タおよび前記構文木データに基づいて、抽出すべき情報
が格納されたデータベースから、前記構文木データと一
致する構文を含む情報、または前記構文木データに類似
した構文を含む情報を抽出する手段。
【0013】例えば、入力された文章をS、入力された
文章S内の部分木データをTi(i=1,2,3,…
n)とし、被検索対象のデータベースに含まれる情報単
位をCj(j=1,2,3,…m)、前記情報単位Cj
が複数集まった集合をMとし、前記(d)の情報を抽出
する手段が以下の具体的な手段を含むものとして構成で
きる。
【0014】(d1)それぞれの前記情報単位Cjにつ
いて、その情報単位Cjに属する全ての部分木の数に対
する、前記部分木データTiが出現する回数の比を、前
記情報単位CjにおけるTiの出現確率P(j)として
演算する、(d2)前記集合Mに属する全ての部分木の
数に対する、前記部分木データTiが出現する回数の比
を、集合MにおけるTiの出現確率Pt(i)として演
算する、(d3)前記出現確率の比{P(j)/Pt
(i)}を、情報単位Cjにおける前記部分木データT
iの特異度Ps(i)とする、(d4) 文章S内の各
部分木Tiについて演算された前記特異度Ps(i)か
ら、各情報単位Cjの尤度Pst=Σ{Ps(i)}
(i=1からi=nまでの累積加算値}を求め、前記尤
度Pstが所定値以上の前記情報単位Cjを検索結果と
する。
【0015】例えば、前記情報単位Cjは、同種のカテ
ゴリーの文章の集まりであり、前記情報単位Cjが検索
結果とされたときに、この情報単位Cjのカテゴリーに
対する対応文がデータベースから選択されるものであ
る。
【0016】ただし、前記情報単位が、インターネット
を介して入力された文章を含む情報などであり、文章の
入力によって情報検索が行われるものであってもよい。
【0017】
【発明の実施の形態】図1は本発明の実施の形態の情報
検索システムを示す構成図、図2は入力された文章の解
析手法を示す説明図、図3は情報検索の手法を示す説明
図、図4は本発明の情報検索の応用範囲を示す説明図で
ある。
【0018】図1に示すように、この情報検索システム
1は、インターネット経由でデータの授受を行うことが
できるシステム本体2を有している。このシステム本体
2は、インターネット経由で文章データSを受け入れる
読み込みインターフェース3および、前記文章データS
を格納するテキストデータベース10を有している。
【0019】またシステム本体2は情報処理部8を有し
ている。この情報処理部8は、テキストデータベース1
0に格納されている前記文章データSに対して、形態素
解析4、構文解析5、構文木データの生成6および検索
のための演算処理7などの各種処理を行うCPUを主体
として構成されている。
【0020】被検索対象となる情報は抽出情報データベ
ース9に格納されている。前記情報処理部8では、前記
抽出情報データベース9にアクセスするとともに、後に
説明する規則に基づいて演算処理7が行われて、前記抽
出情報データベース9から検索データ23を抽出できる
ようになっている。
【0021】前記システム本体2には、データの記憶部
が設けられている。この記憶部には、基本語辞書11の
データ、ユーザ辞書12のデータ、構文解析5を行う際
の解析ルール13のデータ、類語辞書14のデータ、さ
らに述語属性と関係属性を解析するための解析ルール1
5を定めたデータなどが記憶されている。
【0022】検索者の端末からインターネット経由によ
り検索指示を意味する文章データSが与えられ、この文
章データSがインターフェース3を介してテキストデー
タベース10に格納される。このテキストデータベース
10から読み出された文章データSが情報処理部8に与
えられると、情報処理部8において、形態素解析4およ
び構文解析5が行われ、さらに属性ルール15に基づい
て述語属性と関係属性が付与されて構文木データ22が
生成される。この構文木データ22と前記抽出情報デー
タベース9に格納されたデータ(情報単位Cj)とから
演算処理7が行われて検索データ23が抽出される。
【0023】この情報検索システム1が、データベース
からのデータの抽出システムとして使用されるときに
は、前記演算処理7に基づいて前記抽出情報データベー
ス9から抽出された検索データ23が、インターフェー
スを介してインターネット経由にて検索者の端末に送り
出される。そして検索者の端末のディスプレイで、前記
検索データ23の内容を確認することができる。
【0024】ただし、図1に示す実施の形態では、検索
者の端末から入力される文章データSが質問文または注
文文などの場合を一例として示している。情報処理部8
では、前記質問文や注文文などが解析され、さらに演算
処理7されて、その質問や注文などの内容が抽出情報デ
ータベース9に格納されたデータ群のどのカテゴリーに
属するかが検索される。そして、その検索結果、すなわ
ち前記質問や注文が抽出情報データベース9に格納され
たデータ群のどのカテゴリーに属するかを意味するデー
タが検索データ23として得られる。さらに、この検索
データ23が検索モジュール24に送られ、検索モジュ
ール24では、前記質問や注文のカテゴリーに対応する
回答文や確認文などが検索され、この回答文や確認文な
どが出力インターフェース25を介して前記検索者の端
末に送り出されるようになっている。
【0025】以下においては、前記情報検索システム1
に対して前記質問文や注文文の文章データSが与えられ
たときに、前記検索データ23が得られるまでの処理動
作を、図2および図3を用いて詳しく説明する。ただ
し、前述のように、本発明の情報検索システム1は、前
記のような質問などの解析と回答などの検索を行うもの
に限られず、抽出情報データベース9から情報を検索
し、その検索データを検索者に与えられるシステムとし
て使用する場合においても、以下と同様の処理動作を実
行するものとして使用できる。
【0026】図2では、検索者の端末からインターネッ
ト経由でシステム本体2に与えられた文章データSが注
文文である場合を一例として示している。
【0027】情報処理部8では、テキストデータベース
10に格納された前記文章データSを読み出して、文章
データS内に含まれる文末記号にしたがって、単文ごと
に分割する。この実施の形態では、前記単文Saが「修
理してもプリンターの紙詰まりが直らないので、本体を
交換してもらえませんか?」である。
【0028】前記単文Saは、情報処理部8に設定され
る形態素解析エンジンに取り込まれ、基本語辞書11お
よびユーザ辞書12に基づいて形態素解析4が行われ
る。なお、前記ユーザ辞書12は、システム本体2を管
理する管理者において構築されるものである。図2に示
す枠内は、前記単文Saを形態素解析4した解析データ
31を示している。
【0029】形態素解析4では、前記単文Saを構成し
ている「修理」「直」「交換」「プリンター」「紙」
「詰まり」「本体」などの「自立語」、および、「し」
「て」「も」「の」などの「付属語」の単語綴りや、そ
れぞれの品詞属性、すなわち「名詞」「動詞」「動詞活
用語尾」「動詞接尾辞」「連用助詞」「格助詞」などの
属性が解析される。
【0030】さらに、前記形態素解析4された解析デー
タ31に対し、解析ルール13に基づく構文解析5が行
われる。
【0031】この構文解析5では、形態素解析4により
解析された「自立語」および「付属語」とから文節をま
とめる。図2の例では、前記文節は「交換してもらえま
せんか」「本体を」「直らないので」などである。さら
に前記文節間の係り受け関係を解析して、係り受け関係
の文節からなる木構造をまとめる。図2の例での木構造
T1´,T2´,T3´,T4´,T5´は、「本体を
交換してもらえませんか」「直らないので交換してもら
えませんか」「修理しても直らないので」「紙詰まりが
直らないので」「プリンターの紙詰まりが」である。
【0032】次に、係り受け関係の単位である前記木構
造T1´,T2´,T3´,T4´,T5´の単語を標
準形に置き換える。このとき類語については、類語辞書
14を参照して、必要に応じて代表語に変換する。標準
形の単語を用いた係り受け関係が部分木となり、標準形
の部分木T1は「本体+交換する」、部分木T2は「治
る+交換する」、部分木T3は「紙詰まり+治る」、部
分木T4は「修理する+治る」、部分木T5は「プリン
ター+紙詰まり」である。
【0033】さらに、それぞれの前記部分木Tiに対し
て、属性ルール15にしたがって属性解析を行い、それ
ぞれの文節に述語属性が付加され、さらに文節間の関係
属性が付与されて、対を成す文節および前記述語属性お
よび関係属性とから成る部分木Tiの集合である構文木
データ22が形成される。
【0034】前記構文木データ22での部分木T1は、
「本体」の単語を含む文節と、「交換」の単語を含む文
節「交換する」とが対を成し、前記「交換する」の文節
に意思を意味する述語属性「int」が付与され、さら
に関係属性として「意図」が付与されたものとなる。
【0035】部分木T2は、代表語に変換された「治」
の単語を含む文節「治る」と、「交換」の単語を含む文
節「交換する」とが対を成し、「治る」の文節に否定を
意味する述語属性の「neg」が付与され、前記「交換
する」の文節に述語属性の「int」(意思)が付加さ
れ、さらに関係属性として「理由」が付与されたものと
なる。
【0036】部分木T3は、「紙」の単語と「詰まり」
の単語を有する文節「紙詰まり」と、「治」の単語を含
む文節「治る」とが対を成し、「治る」の文節に否定を
意味する述語属性の「neg」が付与され、さらに関係
属性として「現象」が付与されたものとなる。
【0037】また、部分木T4は関係属性が「状況」で
あり、部分木T5は関係属性が「限定」である。
【0038】図1に示す情報検索システム1では、前記
構文木データ22と抽出情報データベース9内のデータ
とから演算を行って、前記単文Saで述べられている意
味が、抽出情報データベース9に格納された複数の情報
単位のどれに該当する確率が高いかの演算が行われる。
【0039】すなわち、入力された文章データSの単文
Saが図2に示すような「修理してもプリンターの紙詰
まりが直らないので、本体を交換してもらえませんか
?」の質問文または注文文などの場合には、抽出情報デ
ータベース9に、同じカテゴリーの質問文または注文文
が含まれた情報単位Cj(j=1,2,3…,m)が複
数単位格納されている。
【0040】ひとつの情報単位Cjには、同種の質問ま
たは注文の標準文例が複数例含まれている。そして図1
に示す情報検索システム1では、図2に示す単文Sa
「修理してもプリンターの紙詰まりが直らないので、本
体を交換してもらえませんか?」の意味する内容のカテ
ゴリーがどの情報単位Cjに相当するかが、演算処理7
によって求められる。この演算処理7は、情報処理部8
のCPUなどにより実行される。
【0041】まず、それぞれの情報単位Cj内での部分
木T1の出現確率P(j)を演算する。これは、それぞ
れの前記情報単位Cj(C1,C2,C3,…,Cm)
ごとに演算される。前記出現確率P(j)は、その情報
単位Cjに属する全ての部分木の数に対する、その情報
単位Cj内で前記部分木T1が出現する回数の比であ
る。
【0042】次に、全ての情報単位C1,C2,C3,
…,Cmの集合をMとしたときに、前記集合M内での前
記部分木T1の出現確率Pt(i)を演算する。これは
前記集合Mに属する全ての部分木の数に対する、前記部
分木T1が出現する回数の比として求められる。
【0043】前記出現確率の比{P(j)/Pt
(i)}が、それぞれの情報単位C1,C2,C3,
…,Cmにおける、前記部分木T1の特異度Ps(1)
である。
【0044】そして、入力された単文Saの構文木デー
タ22内の各部分木T1,T2,T3,T4,T5{一
般式ではTi(i=1,2,3…,n)}の全てに対し
て前記特異度Ps(i)(i=1,2,3…,n)を求
め、これを累積して加算した値が、前記単文Saの全て
の部分木T1,T2,T3,T4,T5を加味した尤度
Pstである。
【0045】すなわち、特異度Ps(i)(iは部分木
の番号)から、Σ{Ps(i)}(i=1からi=nま
での累積加算値)で求められた前記尤度Pstが、前記
集合M内におけるそれぞれの情報単位C1,C2,C
3,…,Cmの尤度である。
【0046】前記尤度Pstが所定値(しきい値)を越
えた情報単位Cjが検索すべき検索データ23である。
【0047】なお、いずれの情報単位C1,C2,C
3,…,Cmにおいても前記尤度Pstがしきい値を超
えない場合には、情報検索システム1の管理者に警告が
出されるなどし、管理者が実際の単文Saを読んで解釈
し、いずれの情報単位Cjが前記単文Saのカテゴリー
に近いかを判断し、検索データ23として指定する。
【0048】図1に示す検索モジュール24では、前記
尤度Pstにより抽出された検索データ23のカテゴリ
ーに対応した回答文、または注文等の確認文が選択さ
れ、インターフェース25から検索者の端末に送信され
る。
【0049】図4は、前記情報検索システム1の応用範
囲を示している。図4に示すIのフローが、前記質問文
や注文文が入力されたときであり、前記のようにインタ
ーネットを通じての自動回答や注文の確認などが行われ
る。また前記のように単文Saが情報単位C1,C2,
C3...,Cmのいずれかのカテゴリーに属するべき
かが判断された時点で、前記単文Saを検索された情報
単位内に格納するなどのQ&Aの構築支援に利用するこ
とができる。
【0050】または図4に示すIIのフローのように、
前記尤度Pstを演算することにより、入力された単文
Saを主題とする、または前記単文Saを含む、文章デ
ータの分類、文章データの検索、データベースの構築な
どを行うことができる。
【0051】
【発明の効果】以上のように本発明では、文章データが
入力されたときに、その文章データの文意を正確に把握
して、その文章データに対応する情報の検索を行うこと
ができる。また、文章データの構文木に基づいてどの情
報単位の尤度が高いかを検索することにより、情報単位
の検索精度を向上させることができる。
【図面の簡単な説明】
【図1】本発明の情報検索システムの構成例を示すブロ
ック図、
【図2】構文木データを形成する過程を示す説明図、
【図3】データベース内の情報単位の検索手法の説明
図、
【図4】本発明の情報検索システムの応用範囲を示す説
明図、
【符号の説明】
1 情報検索システム 2 システム本体 3 読み込みインターフェース 4 形態素解析 5 構文解析 6 構文木データの生成 7 演算処理 8 情報処理部 9 抽出情報データベース 10 テキストデータベース 22 構文木データ 23 検索データ

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 以下の手段を有することを特徴とする情
    報検索システム。 (a)入力された文章データに辞書のデータベースを適
    用して、前記文章データを単語と品詞属性とに解析して
    形態素解析データを生成する手段、 (b)前記形態素解析データに基づいて、前記単語を少
    なくとも1つ含む文節を解読するとともに、文節間の係
    り受け関係を解析する手段と、 (c)係り受け関係にある複数の文節およびこの文節ご
    との述語属性と、さらに前記文節間の関係属性を付加し
    た部分木データを生成し、さらに関係のある複数の前記
    部分木からなる構文木を構築して構文木データを生成す
    る手段、 (d)前記部分木データおよび前記構文木データに基づ
    いて、抽出すべき情報が格納されたデータベースから、
    前記構文木データと一致する構文を含む情報、または前
    記構文木データに類似した構文を含む情報を抽出する手
    段。
  2. 【請求項2】 入力された文章をS、入力された文章S
    内の部分木データをTi(i=1,2,3,…n)と
    し、被検索対象のデータベースに含まれる情報単位をC
    j(j=1,2,3,…m)、前記情報単位Cjが複数
    集まった集合をMとし、 前記(d)の情報を抽出する手段が以下の具体的な手段
    を含む請求項1記載の情報検索システム。 (d1)それぞれの前記情報単位Cjについて、その情
    報単位Cjに属する全ての部分木の数に対する、前記部
    分木データTiが出現する回数の比を、前記情報単位C
    jにおけるTiの出現確率P(j)として演算する、 (d2)前記集合Mに属する全ての部分木の数に対す
    る、前記部分木データTiが出現する回数の比を、集合
    MにおけるTiの出現確率Pt(i)として演算する、 (d3)前記出現確率の比{P(j)/Pt(i)}
    を、情報単位Cjにおける前記部分木データTiの特異
    度Ps(i)とする、 (d4) 文章S内の各部分木Tiについて演算された
    前記特異度Ps(i)から、各情報単位Cjの尤度Ps
    t=Σ{Ps(i)}(i=1からi=nまでの累積加
    算値}を求め、前記尤度Pstが所定値以上の前記情報
    単位Cjを検索結果とする。
  3. 【請求項3】 前記情報単位Cjは、同種のカテゴリー
    の文章の集まりであり、前記情報単位Cjが検索結果と
    されたときに、この情報単位Cjのカテゴリーに対する
    対応文がデータベースから選択される請求項2記載の情
    報検索システム。
JP2001369754A 2001-12-04 2001-12-04 情報検索システム Expired - Fee Related JP4005343B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001369754A JP4005343B2 (ja) 2001-12-04 2001-12-04 情報検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001369754A JP4005343B2 (ja) 2001-12-04 2001-12-04 情報検索システム

Publications (2)

Publication Number Publication Date
JP2003167898A true JP2003167898A (ja) 2003-06-13
JP4005343B2 JP4005343B2 (ja) 2007-11-07

Family

ID=19179093

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001369754A Expired - Fee Related JP4005343B2 (ja) 2001-12-04 2001-12-04 情報検索システム

Country Status (1)

Country Link
JP (1) JP4005343B2 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007041767A (ja) * 2005-08-02 2007-02-15 Nec Corp テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラム
JP2008033728A (ja) * 2006-07-31 2008-02-14 Fujitsu Ltd 重複データ検出プログラム、重複データ検出方法および重複データ検出装置
JP2008250388A (ja) * 2007-03-29 2008-10-16 Toshiba Corp 情報検索装置、情報検索方法及び情報検索プログラム
JP2009157845A (ja) * 2007-12-27 2009-07-16 Toshiba Corp 情報検索装置
JP2009199280A (ja) * 2008-02-21 2009-09-03 Hitachi Ltd 部分構文木プロファイルを用いた類似性検索システム
JP4499179B1 (ja) * 2009-05-12 2010-07-07 株式会社エヌ・ティ・ティ・データ 端末装置
JP2010267247A (ja) * 2010-02-08 2010-11-25 Ntt Data Corp 情報検索装置、情報検索方法、端末装置、およびプログラム
JP2010266970A (ja) * 2009-05-12 2010-11-25 Ntt Data Corp 情報検索装置、情報検索方法、辞書作成装置、およびプログラム
JP2013114635A (ja) * 2011-12-01 2013-06-10 Hitachi Systems Ltd テキストデータ管理方法およびテキストデータ管理システム
US9037593B2 (en) 2010-09-29 2015-05-19 Fujitsu Limited Comparison of character strings

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007041767A (ja) * 2005-08-02 2007-02-15 Nec Corp テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラム
JP2008033728A (ja) * 2006-07-31 2008-02-14 Fujitsu Ltd 重複データ検出プログラム、重複データ検出方法および重複データ検出装置
JP2008250388A (ja) * 2007-03-29 2008-10-16 Toshiba Corp 情報検索装置、情報検索方法及び情報検索プログラム
JP2009157845A (ja) * 2007-12-27 2009-07-16 Toshiba Corp 情報検索装置
JP2009199280A (ja) * 2008-02-21 2009-09-03 Hitachi Ltd 部分構文木プロファイルを用いた類似性検索システム
JP4499179B1 (ja) * 2009-05-12 2010-07-07 株式会社エヌ・ティ・ティ・データ 端末装置
JP2010266970A (ja) * 2009-05-12 2010-11-25 Ntt Data Corp 情報検索装置、情報検索方法、辞書作成装置、およびプログラム
JP2010266971A (ja) * 2009-05-12 2010-11-25 Ntt Data Corp 端末装置
JP2010267247A (ja) * 2010-02-08 2010-11-25 Ntt Data Corp 情報検索装置、情報検索方法、端末装置、およびプログラム
US9037593B2 (en) 2010-09-29 2015-05-19 Fujitsu Limited Comparison of character strings
US9460084B2 (en) 2010-09-29 2016-10-04 Fujitsu Limited Comparison of character strings
JP2013114635A (ja) * 2011-12-01 2013-06-10 Hitachi Systems Ltd テキストデータ管理方法およびテキストデータ管理システム

Also Published As

Publication number Publication date
JP4005343B2 (ja) 2007-11-07

Similar Documents

Publication Publication Date Title
US9672206B2 (en) Apparatus, system and method for application-specific and customizable semantic similarity measurement
US10296584B2 (en) Semantic textual analysis
Al‐Sughaiyer et al. Arabic morphological analysis techniques: A comprehensive survey
KR101004515B1 (ko) 문장 데이터베이스로부터 문장들을 사용자에게 제공하는 컴퓨터 구현 방법 및 이 방법을 수행하기 위한 컴퓨터 실행가능 명령어가 저장되어 있는 유형의 컴퓨터 판독가능 기록 매체, 문장 데이터베이스로부터 확인 문장들을 검색하는 시스템이 저장되어 있는 컴퓨터 판독가능 기록 매체
US8185377B2 (en) Diagnostic evaluation of machine translators
JP3266246B2 (ja) 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法
US20150081277A1 (en) System and Method for Automatically Classifying Text using Discourse Analysis
EP3016002A1 (en) Non-factoid question-and-answer system and method
US20150227505A1 (en) Word meaning relationship extraction device
US10460028B1 (en) Syntactic graph traversal for recognition of inferred clauses within natural language inputs
US20100332217A1 (en) Method for text improvement via linguistic abstractions
JP2011118689A (ja) 検索方法及びシステム
Sarwadnya et al. Marathi extractive text summarizer using graph based model
Sibarani et al. A study of parsing process on natural language processing in bahasa Indonesia
Tapsai Information processing and retrieval from CSV file by natural language
JP4005343B2 (ja) 情報検索システム
Selvaretnam et al. A linguistically driven framework for query expansion via grammatical constituent highlighting and role-based concept weighting
Hirpassa Information extraction system for Amharic text
Kan et al. Corpus-trained text generation for summarization
Rahat et al. A recursive algorithm for open information extraction from Persian texts
JP2007122525A (ja) 言い換え処理方法及び装置
JPH11259524A (ja) 情報検索システム、情報検索システムにおける情報処理方法および記録媒体
Saneifar et al. From terminology extraction to terminology validation: an approach adapted to log files
Bindu et al. Design and development of a named entity based question answering system for Malayalam language
Karimi et al. Natural language query and control interface for database using afghan language

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041109

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070508

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070703

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070731

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070823

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100831

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130831

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees