JP2010165040A - 語分割装置および方法 - Google Patents
語分割装置および方法 Download PDFInfo
- Publication number
- JP2010165040A JP2010165040A JP2009004939A JP2009004939A JP2010165040A JP 2010165040 A JP2010165040 A JP 2010165040A JP 2009004939 A JP2009004939 A JP 2009004939A JP 2009004939 A JP2009004939 A JP 2009004939A JP 2010165040 A JP2010165040 A JP 2010165040A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- frequency
- word
- input
- abbreviation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
【解決手段】文字列の入力を受け付け入力文字列を得る入力手段101と、入力文字列の全ての文字間で入力文字列を2分割し、前半文字列と後半文字列とからなる分割文字列を得る分割手段102と、入力文字列が出現した度数を示す数である第1頻度と、前半文字列が出現した度数を示す数である第2頻度と、後半文字列が出現した度数を示す数である第3頻度を取得する取得手段103と、第1頻度の値と、第2頻度の値および第3頻度の値のうちの小さい方の値との比により、複数の分割文字列のうちの比が最小となる分割文字列を最適分割文字列として判定する第1判定手段104と、最適分割文字列に含まれる最適前半文字列および最適後半文字列の少なくとも1つが、停止条件を満たす場合は、基本語として判定する第2判定手段105と、を具備する。
【選択図】図1
Description
しかし、未知語に対する辞書の更新を人手でおこなうのはコストがかかる。このように形態素解析を用いた場合、新語や造語に対して略称生成のための語に分割することが難しい。
(第1の実施形態)
本発明の本実施形態に係る語分割装置は、辞書や単語データを利用することなく外部にある文字列頻度データ等を利用することで、入力文字列の分割を文字列頻度のみを用いて語分割する。
第1の実施形態に係る語分割装置について図1を参照して説明する。
本実施形態に係る語分割装置100は、入力部101、2分割部102、文字列頻度測定部103、分割位置判定部104、停止条件判定部105、出力部106を含む。また以下の本文中では、2分割部102、文字列頻度測定部103、分割位置判定部104、停止条件判定部105、をまとめて語句分割部107と呼ぶ。
2分割部102は、入力部101から受け取った入力文字列を2分割して文字列頻度測定部103へ送る。2分割部102の詳細な動作は図3を参照して説明する。
分割位置判定部104は、文字列頻度測定部103から得た分割文字列の組の頻度データと、入力文字列の頻度データとを用いて入力文字列の最も適した分割位置を判定し停止条件判定部105へ送る。分割位置判定部104の詳細な動作は図3を参照して説明する。
停止条件判定部105は、分割位置判定部104から入力された分割文字列が停止条件を満たすかどうかを判定し、停止条件を満たしていないのであれば、停止条件を満たすまで再帰的に分割文字列を2分割部102へ送り新たな分割文字列を生成する。停止条件を満たすのであれば、分割文字列を出力部106へ送る。以下では、語句分割部107の処理を終えて出力された語を、入力文字列を分割する際にある条件下でその条件に最も適した位置で分割されたことを示す基本語として定義する。この条件は、例えば、姓名であれば名字と名前で分割したり、略語であれば略語を構成する基となる略称になりやすい語となるように分割をおこなう。
出力部106は、停止条件判定部105で停止条件を満たした分割文字列を受け取って基本語として外部へ出力する。
入力文字列の例に、番組名として「たべるのトびら」を入力した場合を示す。なお、本実施例では外部にあるデータベース108を利用して、文字列頻度測定をおこなう例について説明する。
はじめにS201では、入力部101へ入力文字列として「たべるのトびら」を入力する。そして入力文字列「たべるのトびら」を2分割部102へ送る。
次にS203では、文字列頻度測定部103において、2分割部102から受け取ったS0とSi1とSi2(i=1からnまでとし、nは(S0の文字列長−1)とする)の文字列頻度を測定する。文字列頻度の測定対象となるデータベース108は、例えば、前記外部にある文字列頻度データにより測定をおこなう。
文字列頻度データの測定例としては、Web検索用のAPI(Application Programming Interface)を利用し、頻度を測定したい各文字列をダブルクォーテーション(「″」)で囲んだ文字列を検索語として検索結果数(文書数)を取得することで得る。このとき、前記文字列が「たべる」であるとき、検索語は「″たべる″」となる。また、前記の既存の文書データ中での各文字列の頻度測定する場合は、例えば組織内で保持するデータ等の文書データに対し、頻度測定したい各文字列の頻度を測定することで得られる。さらに、前記の既存の文字列頻度辞書を利用した頻度測定とは、図4に示したようなデータを保持したテーブルを別途用意し、このテーブルから頻度を得る。図4のデータは、前記文書データから、単語ではなくm文字(mは自然数)までの文字数の文字列(文字列データ401)を作成し、各文字列の頻度(文字列頻度データ402)を前記文書データ中で測定しておくことによって得る。
ここでは、データベース108から得られる文字列Sの文字列頻度をHit(S0)、Hit(Si1)、Hit(Si2)(i=1からnまで)として表し、対応付けて取得しておく。
R(i)=Hit(S0)/min(Hit(Si1),Hit(Si2))・・・(1)
この式を用いて、これを最小にするi=kの分割位置を計算し、Sk1とSk2を出力とする。i=4のときのR(i)を計算する例を図3を参照して説明すると、i=4のとき分割文字列は、S41=「たべるの」、S42=「トびら」であり、「たべるの/トびら」と分割すると推定される。また、関連度Rについて計算すると、S0である「たべるのトびら」の文字列頻度がHit(S0)=11000000であり、「たべるの」の文字列頻度がHit(S41)=1890000、「トびら」の文字列頻度がHit(S42)=12900000であったとする。これらの文字列頻度を用いて関連度R(4)を計算した結果は、(1)式よりR(4)=5.851(ここでは小数点第4位を四捨五入)が得られる。なお、min(Hit(Si1),Hit(Si2))を計算する際に、Hit(Si1),Hit(Si2)のどちらかが0であった場合は該当なしとして候補から除いてもよい。
同じように、入力文字列が「ひめちゃまかりん」という文字列であった場合を図5を参照して説明する。「たべるのトびら」と同様に、「ひめちゃまかりん」に対してS202およびS203の処理をおこない、2分割部102で7通りの語分割をおこなって、それぞれに対して文字列頻度を測定する。次に、ここでは一例としてi=5の場合、S51=「ひめちゃま」、S52=「かりん」であり、これらの文字列頻度を測定する。Hit(S51)=931000、Hit(S52)=17300000、「ひめちゃまかりん」の文字列頻度がHit(S0)=899000であり、このときの(1)式を用いて関連度R(5)を計算する。仮に、他の関連度よりもR(5)が一番小さければ、R(5)は「ひめちゃま/かりん」と分割すると推定され「ひめちゃま」と「かりん」を基本語としてS205に進む。
ここで、入力文字列「たべるのトびら」から、S204において「たべるの」と「トびら」という分割を得た場合には、「たべるの」はひらがな4文字以下であり、これをそのまま出力としてS206に進む。また、「トびら」もカタカナとひらがなの4字以下であるため、これをそのまま出力としてS206に進む。一方、同様の停止条件であるときに、入力文字列「ひめちゃまかりん」からS204において「ひめちゃま」と「かりん」という分割を得た場合には、「かりん」はひらがな4字以下であるため、このまま出力とする。しかし、「ひめちゃま」はひらがな4字より多いため停止条件を満たさないので、「ひめちゃま」をS201へ戻し、更なる分割位置を求める。こうしてすべての分割文字列が停止条件を満たすまで再帰的に文字列の分割処理を繰り返す。
S206では、S205で停止条件を満たした分割文字列を基本語として出力する。ここでは「たべるの」と「トびら」を出力する。上述したステップにより語句分割部107の処理を終了する。
次に図1で示した語分割装置100の変形例を図6に示す。
本変形例に係る語分割装置600は、図1に示した語分割装置100に加え、さらに形態素解析部601を含む。語分割装置600に含まれる他の構成は上述した第1の実施形態と同様の動作をおこなうのでここでの説明は省略する。
上述した第1の実施形態では、主に番組名や氏名など単語単位で、未知語の開始位置と終了位置が認識できる状態で入力をおこなうことを想定しているが、本変形例では、単語単位だけではなく、文章で未知語の終了位置がわからない状態の入力においても形態素解析をおこなうことにより未知語を単語単位で抽出して基本語への分割をおこなうことができる。
形態素解析部601は、入力部101から入力文字列を受け取り、形態素解析をおこなった結果、未知語と判定されて1語になったり、名称等の扱いで1語となった文字列を、語句分割部107へ送る。形態素解析器の代わりに、助詞「は」「の」などを分割位置として語分割してもよい。例えば、「T芝S郎の金曜日のエンタメアツメテ」という入力文字列の場合、形態素解析部601によって形態素解析をおこなう。その結果、人名「T芝S郎」や造語「エンタメアツメテ」が未知語となった場合に、語句分割部107へ「T芝S郎」や「エンタメアツメテ」を入力として与え、姓名分割や語分割をおこなう。
また、語句分割部107では、人名を入力として与え、姓名分割をおこなってもよい。さらに、語句分割部107では、複合語を入力として与え、複合語を構成する基本語への分割をおこなってもよい。
本発明に係る第2の実施形態について図7を参照して説明する。本実施形態に係る語分割装置700は、図1で示した語分割装置100に加え、さらに略称生成部701を含む。語分割装置700に含まれる他の構成は、上述した第1の実施形態の語分割装置100と同様の動作をおこなうのでここでの説明は省略する。
第1の実施形態に係る語分割装置100と異なる点は、基本語への語分割をおこなった後に、略称生成をおこなうことによって略称候補を取得することである。
略称生成部701では、語句分割部107から受け取った基本語から略称生成規則によって略称候補を生成し、出力部106へ送る。あるいは各文字列を単語として機械学習の素性として用いて、略称候補の生成をおこない出力部106へ送ってもよい。略称生成規則とは、例えば、入力語を分割した各基本語のうち略称生成に用いる、基本語および文字の位置を指定するものである。例えば、文字位置(例えば、語頭や語末)を組み合わせて構成したり、長音や撥音を除く処理を加えて生成する手法といったものである。一例としては、正式名称が「首都間中央自動車道」(首都間/中央/自動車/道)の場合、「第1、第2、第4番目の基本語の語末の1文字を選択」という略称生成規則であれば、「首都間」の「間」、「中央」の「央」、「道」の「道」が各基本語より選択され、「間央道」と略される。また、正式名称が「第三中学校」(第三/中学校)の場合、「第1基本語の語末の1文字および第2基本語の語頭の1文字を選択」という略称生成規則であれば、「第三」の「三」、「中学校」の「中」が選択され、「三中」と略される。さらに「長音を除く」という略称生成規則であれば、基本語「スーパー」は「スパ」と略される。また、機械学習には、例えば、CRF(Conditional Random Fields)といった手法があり、各文字に対し略称に用いられる文字かどうかを判定する。
はじめに、入力部101への入力文字列が「たべるのトびら」であった場合、語句分割部107での語分割処理の結果、「たべるの」「トびら」という基本語がそれぞれ得られたとする。
S801では、略称生成部701へ「たべるの」「トびら」という2語(入力基本語804)の入力をおこなう。
次にS802では、略称生成規則適用の際、語頭2文字ずつを得る略称生成を用いて略称生成する場合は、「たべるの」と「トびら」を基本語として「たべトび」という略称が生成される。略称生成規則が複数あった場合には、この他にも複数の略称候補が生成される(略称候補805)。この略称候補805を生成したあとはS803に進む。
S803では、S802で生成された略称候補805を出力する。以上のステップにより略称生成部701での処理を終了する。
ここで分割回数も追加情報として与えれば、「ひめ /2ちゃま /1かりん」と分割されることになる。ただし、「/i」は、i番目の分割位置であることを表す。略称生成規則が、「任意に2語から語頭2モーラをつなぎ合わせて作成する」だった場合、「ひめちゃま」「ひめかり」「ちゃまかり」という3候補が生成される。しかし、分割回数を追加情報として与え、このときの略称生成規則が例えば、「分割回数の少ない位置で分割された2語の語頭2モーラから作成される」であった場合、「ひめかり」のみ略称候補805として選択することができる。
本発明に係る第3の実施形態について図9を参照して説明する。本実施形態に係る語分割装置900は、図7で示した第2の実施形態に係る語分割装置700に加え、さらに略称候補選定部901を含む。文字列頻度測定部103は、略称候補選定部901と文字列頻度データをやり取りする点で第1の実施形態および第2の実施形態と異なるが、その他は同様の動作をおこなう。
語分割装置900に含まれる他の構成は、上述した第2の実施形態に係る語分割装置700とほぼ同様の動作をおこなうのでここでの説明は省略する。
第2の実施形態と異なる点は、略称生成部701により生成された略称候補805をそのまま出力するのではなく、複数の略称候補805に対し、略称候補805の頻度あるいは、略称候補805と入力文字列との共起頻度が閾値よりも小さい略称候補805を削除したり、共起頻度を参照して順位付けをおこなって、選定した略称のみを出力部106へ送る点である。閾値は、文字列の出現数により、統計的に決定される値である。換言すれば、略称候補805の文字列の頻度が閾値以上であれば、その略称候補805は入力文字列の略称としての正解率、つまり信頼度が高いといえる。逆に、略称候補805の文字列の頻度が閾値よりも小さければ、その略称候補805の略称としての信頼度は低くなる。共起頻度とは、入力文字列と略称候補805がどれほど関連付いて出現しているかを示す度数(出現回数)である。例えばWeb上で入力文字列と略称候補との関連を検索し、その度数を測定することで得るといったことが考えられる。
はじめにS1001では、略称生成部701へ「たべるの」「トびら」という2語(入力基本語804)が入力される。
次にS1002では、略称生成部701において、語頭2文字ずつを得る略称生成規則が適用された場合、「たべるの」と「トびら」を基本語として「たべトび」という略称が生成される。このとき、略称生成規則が複数ある場合には、「たべトび」以外にも幾つかの略称候補805が生成される。
また、閾値と順位付けを同時におこない選定処理をしてもよい。例えば、略称候補805を3つ選定して出力する場合を想定する。順位付けにより選定された上位3つの略称候補805が、上位2つの略称候補805の頻度は閾値以上であり、3番目の略称候補805の頻度は閾値以下であった場合は、閾値以上の2つの略称候補805は略称としての信頼度が高く、閾値よりも小さい1つの略称候補805は、選定はされるものの、略称としての信頼度は低いということができる。
S1004では、出力部106において、略称候補選定部901から受け取った略称候補805の出力をおこなう。以上のステップにより基本語から略称候補805の選定処理を終了する。
Claims (11)
- 文字列の入力を受け付け入力文字列を得る入力手段と、
前記入力文字列の全ての文字間で該入力文字列を2分割し、分割後の前半部分の文字列である前半文字列と分割後の後半部分の文字列である後半文字列とからなる分割文字列を、前記入力文字列の文字数より1少ない数だけ取得する分割手段と、
前記入力文字列が出現した度数を示す数である第1頻度と、前記前半文字列が出現した度数を示す数である第2頻度と、前記後半文字列が出現した度数を示す数である第3頻度を取得する取得手段と、
前記第1頻度の値と、前記第2頻度の値および前記第3頻度の値のうちの小さい方の値との比により、複数の前記分割文字列のうちの該比が最小となる分割文字列を最適分割文字列として判定する第1判定手段と、
前記最適分割文字列に含まれる前半文字列である最適前半文字列および該最適分割文字列に含まれる後半文字列である最適後半文字列の少なくとも1つが、さらに分割をおこなわない条件を示す停止条件を満たす場合は、前記最適前半文字列および前記最適後半文字列のうち該停止条件を満たす文字列を基本語として判定する第2判定手段と、を具備することを特徴とする語分割装置。 - 前記取得手段は、外部にある第1データベース内において前記入力文字列または前記分割文字列を検索した結果である前記第1頻度、前記第2頻度、および前記第3頻度を取得することを特徴とする請求項1に記載の語分割装置。
- 前記取得手段は、複数の文字列を記憶し文字列ごとに、文字列と該文字列の頻度とを関連付けて格納している第2データベースから前記第1頻度、前記第2頻度、および前記第3頻度を取得することを特徴とする請求項1に記載の語分割装置。
- 前記取得手段は、既存の文書データを取得して、該文書データ中に前記入力文字列、前記前半文字列、および前記後半文字列が出現した度数をそれぞれ測定することにより、前記1頻度、前記第2頻度、および前記第3頻度を取得することを特徴とする請求項1に記載の語分割装置。
- 前記第2判定手段は、前記最適前半文字列および前記最適後半文字列の少なくとも1つが前記停止条件を満たさない場合は、該最適前半文字列および該最適後半文字列のうち該停止条件を満たさない文字列を新たな入力文字列として前記分割手段へ送り、該分割手段は該新たな入力文字列に基づき新たな分割文字列を得ることを特徴とする請求項1から請求項4のいずれか1項に記載の語分割装置。
- 前記第2判定手段は、前記最適前半文字列および前記最適後半文字列の少なくとも1つが前記停止条件を満たさない場合は、該最適前半文字列および該最適後半文字列のうち該停止条件を満たさない文字列を新たな入力文字列として前記分割手段へ送り、該分割手段は該新たな入力文字列に基づき新たな分割文字列を得、
複数の前記基本語内の該基本語ごとに先頭文字からの位置であって、指定された文字位置にあるN個(Nは0以上の整数)の文字列を略称候補文字列として選択し、複数の該略称候補文字列を指定された組み合わせにより少なくとも2文字以上の第1略称を生成する生成手段をさらに具備することを特徴とする請求項1から請求項4のいずれか1項に記載の語分割装置。 - 複数の前記第1略称から、前記第1データベース中および前記既存の文書データ中の少なくとも1つにおいて、同一文書内で前記入力文字列および前記第1略称が共起した頻度を表わす共起頻度に対する、該共起頻度の高低を示す閾値と、該共起頻度が高い前記第1略称ほど上位に位置させる順位との少なくとも1つにより選定をおこない、該閾値により選定する場合は該共起頻度が該閾値以上の第1略称を選定し、該順位により選定する場合は該順位が上位であるほど優先的に第1略称を選定する選定手段をさらに具備することを特徴とする請求項6に記載の語分割装置。
- 前記第1略称から選択した第2略称の共起頻度が、該第2略称を全て包含する略称である第3略称の共起頻度よりも大きい場合は、前記第3略称を優先して出力することを特徴とする請求項7に記載の語分割装置。
- 前記生成手段は、前記入力文字列の分割回数が少ない前記基本語の順に前記略称候補文字列を組み合わせて前記略称を生成することを特徴とする請求項6から請求項8のいずれか1項に記載の語分割装置。
- 前記文字列が文章である場合に、該文字列を形態素解析し、該文字列に含まれていて1語である文字列を1語文字列として取得する解析手段をさらに具備し、
前記分割手段は、前記1語文字列を入力文字列として取得し、該入力文字列を分割することを特徴とする請求項1から請求項9のいずれか1項に記載の語分割装置。 - 文字列の入力を受け付け入力文字列を得、
前記入力文字列の全ての文字間で該入力文字列を2分割し、分割後の前半部分の文字列である前半文字列と分割後の後半部分の文字列である後半文字列とからなる分割文字列を、前記入力文字列の文字数よりも1少ない数だけ得、
前記入力文字列が出現した度数を示す数である第1頻度と、前記前半文字列が出現した度数を示す数である第2頻度と、前記後半文字列が出現した度数を示す数である第3頻度を取得し、
前記第1頻度の値と、前記第2頻度の値および前記第3頻度の値のうちの小さい方の値との比により、複数の前記分割文字列のうちの該比が最小となる分割文字列を最適分割文字列として判定し、
前記最適分割文字列に含まれる前半文字列である最適前半文字列および該最適分割文字列に含まれる後半文字列である最適後半文字列の少なくとも1つが、さらに分割をおこなわない条件を示す停止条件を満たす場合は、前記最適前半文字列および前記最適後半文字列のうち該停止条件を満たす文字列を基本語として判定することを特徴とする語分割方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009004939A JP5284117B2 (ja) | 2009-01-13 | 2009-01-13 | 語分割装置および方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009004939A JP5284117B2 (ja) | 2009-01-13 | 2009-01-13 | 語分割装置および方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010165040A true JP2010165040A (ja) | 2010-07-29 |
JP5284117B2 JP5284117B2 (ja) | 2013-09-11 |
Family
ID=42581169
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009004939A Expired - Fee Related JP5284117B2 (ja) | 2009-01-13 | 2009-01-13 | 語分割装置および方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5284117B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104750665A (zh) * | 2013-12-30 | 2015-07-01 | 腾讯科技(深圳)有限公司 | 文本信息的处理方法和装置 |
JP6837608B1 (ja) * | 2020-02-04 | 2021-03-03 | 三菱電機株式会社 | プログラム作成支援装置、プログラム作成支援方法およびプログラム作成支援プログラム |
CN113779990A (zh) * | 2021-09-10 | 2021-12-10 | 中国联合网络通信集团有限公司 | 中文分词方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62191898A (ja) * | 1986-02-18 | 1987-08-22 | 富士通株式会社 | 複合語分割処理方式 |
JP2004348584A (ja) * | 2003-05-23 | 2004-12-09 | Nippon Telegr & Teleph Corp <Ntt> | 単語分割のための方法、装置、記憶媒体およびプログラム |
-
2009
- 2009-01-13 JP JP2009004939A patent/JP5284117B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62191898A (ja) * | 1986-02-18 | 1987-08-22 | 富士通株式会社 | 複合語分割処理方式 |
JP2004348584A (ja) * | 2003-05-23 | 2004-12-09 | Nippon Telegr & Teleph Corp <Ntt> | 単語分割のための方法、装置、記憶媒体およびプログラム |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104750665A (zh) * | 2013-12-30 | 2015-07-01 | 腾讯科技(深圳)有限公司 | 文本信息的处理方法和装置 |
JP6837608B1 (ja) * | 2020-02-04 | 2021-03-03 | 三菱電機株式会社 | プログラム作成支援装置、プログラム作成支援方法およびプログラム作成支援プログラム |
WO2021156940A1 (ja) * | 2020-02-04 | 2021-08-12 | 三菱電機株式会社 | プログラム作成支援装置、プログラム作成支援方法およびプログラム作成支援プログラム |
CN113779990A (zh) * | 2021-09-10 | 2021-12-10 | 中国联合网络通信集团有限公司 | 中文分词方法、装置、设备及存储介质 |
CN113779990B (zh) * | 2021-09-10 | 2023-10-31 | 中国联合网络通信集团有限公司 | 中文分词方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP5284117B2 (ja) | 2013-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5870790B2 (ja) | 文章校正装置、及び文章校正方法 | |
JP5379138B2 (ja) | 領域辞書の作成 | |
JP5445787B2 (ja) | 属性抽出方法、システム及びプログラム | |
KR20100052461A (ko) | 단어 확률 결정 | |
JP2006031010A (ja) | 固有名称又は部分的な固有名称の認識を提供する方法及び装置 | |
JP5273735B2 (ja) | テキスト要約方法、その装置およびプログラム | |
JP5900367B2 (ja) | 検索装置、検索方法及びプログラム | |
JP6599219B2 (ja) | 読み付与装置、読み付与方法、およびプログラム | |
JP5284117B2 (ja) | 語分割装置および方法 | |
JP2005038395A (ja) | データベース検索装置 | |
JP5447368B2 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
JP2012185654A (ja) | 翻訳装置、翻訳プログラムおよび翻訳方法 | |
JP2008225846A (ja) | 単語意味タグ付与装置および方法、プログラム並びに記録媒体 | |
JP5169456B2 (ja) | 文書検索システム、文書検索方法および文書検索プログラム | |
JP5285491B2 (ja) | 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、 | |
JP5491446B2 (ja) | 話題語獲得装置、方法、及びプログラム | |
JP5364529B2 (ja) | 辞書登録装置、文書ラベル判定システムおよび辞書登録プログラム | |
JP6181890B2 (ja) | 文献解析装置、文献解析方法およびプログラム | |
KR20110046098A (ko) | 텍스트 색인 장치 및 방법 | |
JP4341077B2 (ja) | 文書処理装置、文書処理方法、および、文書処理プログラム | |
JP3848014B2 (ja) | 文書検索方法および文書検索装置 | |
JP6451151B2 (ja) | 質問応答装置、質問応答方法、プログラム | |
JP5229448B2 (ja) | 読み付与装置、およびプログラム | |
US20220171937A1 (en) | Document sentence concept labeling system, training method and labeling method thereof | |
JP4049141B2 (ja) | 文書処理装置、文書処理方法、および、文書処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110323 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130205 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130403 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130507 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130529 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5284117 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 Free format text: JAPANESE INTERMEDIATE CODE: R313114 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |