JP2003296323A - 形態素解析装置 - Google Patents

形態素解析装置

Info

Publication number
JP2003296323A
JP2003296323A JP2003080537A JP2003080537A JP2003296323A JP 2003296323 A JP2003296323 A JP 2003296323A JP 2003080537 A JP2003080537 A JP 2003080537A JP 2003080537 A JP2003080537 A JP 2003080537A JP 2003296323 A JP2003296323 A JP 2003296323A
Authority
JP
Japan
Prior art keywords
analysis
morpheme
character string
morphological
low
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003080537A
Other languages
English (en)
Other versions
JP3939264B2 (ja
Inventor
Hideki Yamamoto
秀樹 山本
Sayori Shimohata
さより 下畑
Mihoko Kitamura
美穂子 北村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2003080537A priority Critical patent/JP3939264B2/ja
Publication of JP2003296323A publication Critical patent/JP2003296323A/ja
Application granted granted Critical
Publication of JP3939264B2 publication Critical patent/JP3939264B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 利用者に負担をかけることなく、形態素解析
結果の精度向上や、解析処理時間の短縮化を期待できる
形態素解析装置を提供する。 【解決手段】 本発明は、自然言語文に現れる所定文字
数でなる部分文字列とその絶対的又は相対的な頻度情報
とを少なくとも含む組データである解析実行時データを
多数格納している解析実行時データ格納手段と、未知文
章に対して、解析実行時データ格納手段の格納内容を参
照して形態素解析を実行する形態素解析手段とを有する
形態素解析装置に関する。そして、形態素解析手段から
の形態素解析結果の精度を推測する精度判定手段を有す
ることを特徴とする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力された自然言
語文を形態素(例えば単語)に分割する形態素解析装置
に関し、特に、解析処理時間及び又は解析精度を従来よ
り向上させようとしたものである。
【0002】
【従来の技術】
【0003】
【特許文献1】 特開平5−52543号公報
【0004】
【非特許文献1】 山本幹雄、増山正和著、「品詞・区
切り情報を含む拡張文字の連鎖確率を用いた日本語形態
素解析」、言語処理学会第3回年次大会発表論文集、1
997年3月ワードプロセッサによるテキスト作成機会
の増大や、インターネット対応機器の普及により、大量
の電子化された自然言語文が容易に入手可能となってき
た。文字認識システム、機械翻訳システム、情報検索シ
ステム、情報抽出システム等の大量の自然言語文を扱う
自然言語処理システムにとって、形態素解析処理は、各
種システムが目的とする専門処理を実施する前に共通し
て実施され、単語や句等の文中の意味単位である形態素
を確定する極めて重要な処理である。
【0005】このような形態素解析処理においては、単
語分割(形態素分割)の精度の高さが要求されるととも
に、大量の自然言語文を高速に処理するという処理速度
も要求される。
【0006】従来の形態素解析方法としては、形態素辞
書(単語辞書)や活用語尾テーブルや品詞別接続テーブ
ル等を備え、これら各種の記憶部をアクセスしながら形
態素解析を行うのが一般的であった(特許文献1参
照)。
【0007】また、最近になって、文字をベースとした
確率モデルを利用した形態素解析方法も提案されている
(非特許文献1、並びに、特願平9−68300号明細
書及び図面参照)。
【0008】この形態素解析方法は、自然言語テキスト
が入力文として与えられたときに、この入力文を構成す
る形態素列として、各文字の直後が形態素境界であるか
否かのあらゆる組み合わせの中から最も確からしい形態
素列の並びを出力させるものである。
【0009】そして、最も確からしい形態素列の並びか
否かを判断させるために、大量のテキストデータ(コー
パス;学習データ)から学習させた確率モデル(統計デ
ータベース;解析実行時データのデータベース)を用い
る。統計データベースに格納されている1組の解析実行
時データは、例えば、文字数Nの拡張文字列、及び、そ
の拡張文字列がコーパス上にどの程度の割合で出現する
かを表す連鎖確率のデータである。なお、拡張文字と
は、「私」、「は」等の通常の文字とは異なり、このよ
うな文字に対して、少なくとも形態素区切り情報(この
文字の直後が形態素区切りか否か)を含む拡張情報を付
加したものである。
【0010】
【発明が解決しようとする課題】(1)形態素辞書を用
いる従来では一般的であった形態素解析方法は、入力段
階では長さが不明な形態素を定めるように形態素辞書を
引くものであるので、形態素辞書を引く回数が非常に多
くなって辞書引きにかなりの時間がかかり、大量の文書
を短い時間で処理することはできなかった。すなわち、
利用者は、形態素解析結果を迅速には得ることができな
い。以下、場合によっては、この種の形態素解析を低速
形態素解析と呼ぶこととする。
【0011】(2)これに対して、文字をベースとした
確率モデル(統計データベース)を利用した形態素解析
方法は、入力文から定まる所定文字数(N)の拡張文字
列を統計データベースの格納内容と照合して形態素解析
を行うことを基本とするので、上記の形態素解析方法
(低速形態素解析方法)に比較して形態素解析結果を高
速に得ることができる。
【0012】しかし、この形態素解析方法においては、
事前にパラメータ(統計データ;解析実行時データ)を
学習して作成しておく必要があり、そのための学習デー
タ(コーパス)を用意するのが大変であった。以下、場
合によっては、この種の形態素解析を高速形態素解析と
呼ぶこととする。
【0013】必要な学習データ(コーパス)は、上述し
た拡張文字列及びその連鎖確率でなる統計データを算出
できるものであるので、形態素の区切り箇所の情報(及
びその形態素の品詞情報)等をテキストファイルに付加
したものである。テキストファイルは入手し易いが、そ
れに上述した情報を付加したファイルは、現状ではほと
んどなく、テキストファイルに人間が上述した情報を一
つ一つ付加して学習に用いられる学習データ(コーパ
ス)を作成していた。又は、低速形態素解析の結果に対
して、人手で修正を加えて、学習に用いられる学習デー
タ(コーパス)を作成していた。
【0014】高速形態素解析において、以上のような学
習データを用意して統計データベースを作成しても、事
前に用意した学習データにない文字列に対しては、正し
く解析することはできない。低速形態素解析において
も、勿論、辞書に入っていない形態素(未知語)からな
る文字列に対しては、正しく解析できないが、通常形態
素解析用の辞書には、数万から数十万語の辞書を用いて
いるので、正しく解析できない文字列(未知語)に出会
うことは少ない。仮に、低速形態素解析の辞書にある形
態素を全て適当な頻度で含んだ学習データを用意するこ
とができて、それを用いて高速形態素解析を学習するこ
とができれば原理的には、低速形態素解析と高速形態素
解析は、ほぼ同じ精度で解析できる。すなわち、正しく
解析できない文字列は同じになるといえる。
【0015】しかしながら、低速形態素解析の辞書にあ
る形態素を全て適当な頻度で含んだ学習データを用意す
ることは現実的に不可能である。その結果、高速形態素
解析においては、学習データになかった形態素が出現す
る文章の解析精度は、低速形態素解析よりも劣ってしま
う。
【0016】(3)高速形態素解析の利用者が、その形
態素解析方法が採用している学習データがどのような形
態素から構成されていたかを知る方法がない場合は、利
用者としては一つ一つの文章の解析結果を見て、高速解
析結果の精度が悪いと判断したときには、その文章にだ
け低速形態素解析を使うようにするか、あるいはその文
章だけ人手で修正するかどちらかの方法をとらざるを得
ない。
【0017】形態素解析したい文章が様々な分野にわた
っている場合は、一つ一つ解析結果をチェックするのは
面倒な作業であり、もし、チェックをしないとすると、
高速形態素解析を利用した場合の全体としての精度は悪
くなってしまう。
【0018】形態素解析したい文章が様々な分野にわた
っている例としては、インターネット上の様々なWWW
サーバ上の文書ファイルを形態素解析して出現する形態
素の頻度を調べて、検索サービス用のインデックスファ
イルを作るために形態素解析を利用する場合などがあ
る。
【0019】(4)ところで、精度の悪かった高速形態
素解析の結果に対して、人手でチェックした後、そのデ
ータを統計データベースに反映させる(フィードバック
させる)ことも考えられる。
【0020】このようにすると、反映処理後は、その分
野と同じ分野の文章に対しては同程度の精度で解析する
ことが可能になるが、人手によるチェックという作業は
なくなる訳ではないので、面倒である。
【0021】そのため、平均的に見て、高精度の形態素
解析結果を得られるまでの時間が短い形態素解析装置が
求められている。
【0022】
【課題を解決しようとする手段】かかる課題を解決する
ため、本発明は、自然言語文に現れる所定文字数でなる
部分文字列とその絶対的又は相対的な頻度情報とを少な
くとも含む組データである解析実行時データを多数格納
している解析実行時データ格納手段と、未知文章に対し
て、上記解析実行時データ格納手段の格納内容を参照し
て形態素解析を実行する第1の形態素解析手段とを有す
る形態素解析装置において、上記第1の形態素解析手段
からの形態素解析結果の精度を推測する精度判定手段を
有することを特徴とする。
【0023】
【発明の実施の形態】(A)第1の実施形態 以下、本発明による形態素解析装置の第1の実施形態を
図面を参照しながら詳述する。
【0024】この第1の実施形態の形態素解析装置は、
基本的には、入力文を高速形態素解析方法で解析するも
のであり、低速な形態素解析の結果を高速な形態素解析
の学習データに自動的に変換する学習機能を持つことに
よって、これまで学習データとしていなかった文章を容
易に学習データとして使用することができるようにした
ことを大きな特徴としているものである。
【0025】図1は、第1の実施形態の形態素解析装置
の構成を示す機能ブロック図である。すなわち、第1の
実施形態の形態素解析装置は、実際上、入出力装置や処
理装置や記憶装置(や通信装置)等を有するワークステ
ーションやパソコン等の情報処理装置上に実現されるも
のであるが、機能的には、図1に示す構成を有するもの
である。
【0026】図1において、この第1の実施形態の形態
素解析装置10は、低速形態素解析手段11、低速形態
素解析結果格納手段12、変換手段13、学習データ格
納手段14、学習手段15、解析実行時データ格納手段
16及び高速形態素解析手段17を有している。これら
の構成要素のうち、低速形態素解析手段11、低速形態
素解析結果格納手段12、変換手段13、学習データ格
納手段14及び学習手段15が、第1の実施形態の解析
実行時データ作成装置を構成している。
【0027】低速形態素解析手段11は、詳細構成の図
示は省略するが、内蔵する形態素辞書を利用して形態素
解析を行う従来の低速形態素解析装置と同様な構成を有
するものである。すなわち、上述した特許文献1に記載
されている形態素解析装置やそれに類似した装置と同様
な詳細構成を有する。この第1の実施形態の場合、低速
形態素解析手段11は、未知文書中の各文を形態素解析
するものとして設けられているのではなく、解析実行時
データ格納手段16に格納させる解析実行時データを作
成する構成中の一要素として設けられている。この低速
形態素解析手段11には、学習用文書が入力される。な
お、図1において、学習用文書と記載されているブロッ
クは、学習用文書の入力手段をも意味している。
【0028】低速形態素解析結果格納手段12は、低速
形態素解析手段11が学習用文書の各文に対して実行し
た低速形態素解析結果を格納するものである。
【0029】変換手段13は、低速形態素解析結果格納
手段12に格納されている低速形態素解析結果のデータ
形式を、高速形態素解析装置が必要とする学習データと
してのデータ形式に変換するものである。
【0030】学習データ格納手段14は、変換手段13
が変換して得た学習データ(コーパス)を格納するもの
である。
【0031】学習手段15は、学習データ格納手段14
に格納されている学習データから、高速形態素解析手段
17が未知文章の形態素解析時に参照する解析実行時デ
ータを作成するものである。すなわち、例えば、学習デ
ータ上に現れる所定文字数Nの拡張文字列、及び、その
拡張文字列が学習データ上にどの程度の割合で出現する
かを表す連鎖確率でなる解析実行時データ(統計デー
タ)を、学習データから作成するものである。学習デー
タから解析実行時データを作成する方法としては、非特
許文献2、並びに、特願平9−350651号明細書及
び図面に記載の方法を適用できる。
【0032】
【非特許文献2】 長尾眞、森信介著、「大規模日本語
テキストのnグラム統計の作り方と語句の自動抽出」、
情報処理学会研究報告自然言語処理96−1、1993
年7月解析実行時データ格納手段(統計データベース)
16は、学習手段15によって作成された解析実行時デ
ータを格納するものである。後述する図11は、解析実
行時データ格納手段(統計データベース)16に格納さ
れた一部の解析実行時データ(Nが3の場合)を示して
いる。なお、解析実行時データの連鎖確率は、例えば、
先頭側のN−1文字が同一の複数の文字数Nの拡張文字
列の連鎖確率の総和が1になるように定められる。
【0033】高速形態素解析手段17は、形態素解析対
象の未知文書又は未知文章が与えられたときに、各文章
に対して、解析実行時データ格納手段16の格納内容を
参照して形態素解析を実行し、得られた形態素解析結果
を出力するものである。高速形態素解析手段17は、例
えば、上述した非特許文献1や、特願平9−68300
号明細書及び図面に記載された構成、又はそれに類似し
た構成により実現される。
【0034】図示は省略するが、高速形態素解析手段1
7の詳細構成例を挙げると以下の通りである。すなわ
ち、高速形態素解析手段17は、スコアテーブル17
a、拡張文字列生成部17b、連鎖確率計算部17c、
及び、最適経路探索部17dを有する。
【0035】スコアテーブル17aは、解析対象の未知
文章の文頭から文末までの全ての拡張文字列の経路と、
解析実行時データ格納手段16に格納されている所定文
字数の拡張文字列の連鎖確率とに基づき、求められた拡
張文字列の経路に対応する連鎖確率を格納するものであ
る。拡張文字列生成部17bは、解析対象の未知文章に
ついての拡張文字を生成し、当該拡張文字の組み合わせ
(経路)の全てをスコアテーブル17aに格納させるも
のである。連鎖確率計算部17cは、解析実行時データ
格納手段16に格納されている連鎖確率に基づき、スコ
アテーブル17aに格納されている拡張文字列の各経路
に対する連鎖確率を計算するものである。最適経路探索
部17dは、連鎖確率計算部17cにより計算された連
鎖確率の中から、最適な条件(例えば最大値の連鎖確率
を与えるなど)を満たす拡張文字列を、最適拡張文字列
(形態素解析結果)として選択するものである。
【0036】なお、図1において、未知文書と記載され
ているブロックは、未知文書の入力手段をも意味してお
り、形態素解析結果と記載されているブロックは、形態
素解析結果の出力手段をも意味している。
【0037】次に、この第1の実施形態の形態素解析装
置10の処理の概要を図2のフローチャートを参照しな
がら詳述する。なお、第1の実施形態の形態素解析装置
10の処理は、未知文書の形態素解析を実行させるため
の準備段階の処理と、未知文書の形態素解析を実行する
処理とに分かれ、図2におけるステップ100〜102
が前者の処理に対応し、ステップ103が後者の処理に
対応している。
【0038】学習用文書が当該形態素解析装置10に入
力されると、形態素辞書を利用する低速形態素解析手段
11によって入力された学習用文書が形態素解析され、
その形態素解析結果が低速形態素解析結果格納手段12
に書き込まれる(ステップ100)。
【0039】このとき、格納される形態素解析結果のデ
ータ形式は、当然に、低速形態素解析手段11による出
力データ形式である。このような低速形態素解析結果
が、変換手段13によって、高速形態素解析手段17が
利用する解析実行時データを作成させる元となる学習デ
ータのデータ形式に変換され、学習データ格納手段14
に格納される(ステップ101)。
【0040】そして、この学習データが、学習手段15
によって処理されて解析実行時データが作成され、作成
された解析実行時データが解析実行時データ格納手段1
6に格納される(ステップ102)。
【0041】以上のような高速形態素解析処理の準備段
階の処理が終了した後において、未知文書が入力される
と、その未知文書の各文章に対し、高速形態素解析手段
17が、解析実行時データ格納手段16の格納内容を参
照しながら形態素解析し、得られた形態素解析結果を出
力する(ステップ103)。
【0042】図3は、低速形態素解析手段11に入力さ
れる学習用文書の一例を示している。図3に示すよう
に、学習用文書は、拡張情報やタグを伴うことがない自
然言語テキストデータになっている。
【0043】適用している低速形態素解析手段11の内
部構成にもよってその出力データ形式(形態素解析結果
データ形式)は異なる。図4は、図3の第1文目を低速
形態素解析した結果の出力例(出力データ形式例)を示
している。図4の各行は一つの単語の情報を示してい
る。1つの単語の情報は空白で区切られた3つの情報か
らなり、それぞれ品詞、標準形、出現形である。活用し
ない名詞などの場合は標準形と活用形は同じになる。
【0044】図5は、図3に対応した学習データの例を
示している。図4に例示したような低速形態素解析結果
のデータを、この図5に示すような学習データに変換手
段13は変換する。
【0045】図5に示した例は、解析実行時データが、
文字数Nの拡張文字列と、その拡張文字列がコーパス上
にどの程度の割合で出現するかを表す連鎖確率のデータ
とでなり、しかも、拡張文字が、「私」、「は」等の通
常の文字に対して形態素区切り情報を拡張情報として付
加したものである場合に対応した例である。なお、拡張
情報として、形態素区切り情報に加えて品詞情報を含む
ものは、図5の形式とは異なるものとなる。
【0046】図5(A)は、前接する文字との間が形態
素の区切りになる場合を「1」で、そうでない場合を
「0」で表した拡張文字列で、形態素の境界(区切り)
を表した例を示している。図5(B)は、図5(A)と
同じ内容を、形態素区切りをスラッシュ(/)で表した
例である。
【0047】図6は、変換手段13による変換処理の流
れの一例を示すフローチャートである。なお、図6は、
変換後のデータ形式が図5(A)に示すような場合に対
応したものである。
【0048】まず、低速形態素解析結果格納手段12
に、変換処理が終了していない低速形態素解析結果が残
っているか否かを確認する(ステップ200)。残って
いないならば、一連の変換処理を終了する。
【0049】これに対して、低速形態素解析結果格納手
段12に、未処理の低速形態素解析結果が残っているな
らば、未処理の低速形態素解析結果を1文分だけ読み出
す(ステップ201)。そして、読み出した低速形態素
解析結果から、出現形の項目を抜き出し(ステップ20
2)、各出現形の文字をそれぞれ拡張文字に変換して拡
張文字列を作成する(ステップ203)。そして、得ら
れた拡張文字列を、学習データ格納手段14に格納して
上述したステップ200に戻る(ステップ204)。
【0050】ここで、拡張文字への変換は、出現形の最
後の文字だけに形態素区切りであることを表す「1」を
付与し、それ以外の文字には、形態素区切りでないこと
を表す「0」を付与する。例えば、図7に示すように、
出現形が「機械翻訳」であれば、それに対する拡張文字
列として、<機,0><械,0><翻,0><訳,1>
が得られる。
【0051】上記第1の実施形態によれば、低速形態素
解析結果を、高速形態素解析方法が解析時に用いる解析
実行時データの作成用学習データに自動的に変換する学
習機能を持たせたので、これまで学習データとしていな
かった文章を容易に学習データとして使用することがで
きる、基本的に高速形態素解析方法に従っている形態素
解析装置を実現できる。その結果、学習データの充実を
計ることができ、未知文書に対する高速形態素解析結果
の精度向上も期待できる。
【0052】また、低速形態素解析結果を学習データに
自動的に変換する学習機能を持たせたので、利用者は学
習用文書を当該装置に入力する操作を行うだけで良く、
学習用文書から学習データを作成したり、低速形態素解
析結果から学習データを作成したりすることを不要にす
ることができる。
【0053】(B)第2の実施形態 次に、本発明による形態素解析装置の第2の実施形態を
図面を参照しながら詳述する。
【0054】この第2の実施形態の形態素解析装置は、
高速形態素解析結果の精度の良否を弁別し、良くない場
合には、そのことを明らかにした結果を利用者に提示
し、利用者に精度が低い場合の判断を委ねるようにした
ことを大きな特徴としているものである。
【0055】図8は、この第2の実施形態の形態素解析
装置10Aの機能的構成を示すブロック図であり、上述
した第1の実施形態に係る図1との同一、対応部分には
同一符号を付して示している。
【0056】図8において、第2の実施形態の形態素解
析装置10Aは、解析実行時データ格納手段16、高速
形態素解析手段17、精度判定手段18及び精度・解析
結果合成手段19を備える。
【0057】なお、解析実行時データ格納手段16に格
納する解析実行時データの作成方法が第1の実施形態と
同様である場合には、図示は省略しているが、低速形態
素解析手段11、低速形態素解析結果格納手段12、変
換手段13、学習データ格納手段14及び学習手段15
も備える(図1参照)。これら構成要素についての説明
は省略する。
【0058】また、解析実行時データ格納手段16及び
高速形態素解析手段17は、第1の実施形態のものと同
様であるので、その機能説明は省略する。
【0059】この第2の実施形態で新たに設けられた精
度判定手段18は、高速形態素解析手段17が解析実行
時データ格納手段16に所望する解析実行時データを検
索した際の検索結果に基づいて、高速形態素解析手段1
7から得られる形態素解析結果における精度が低いと思
われる文字列を判定するものである。このような精度判
定結果は、精度・解析結果合成手段19に与えられる。
【0060】解析実行時データは、非特許文献1や、特
願平9−68300号明細書及び図面にも記載されてい
るように、また、第1の実施形態で説明したように、学
習データから作成される。学習データに現れた文字列に
対応した解析実行時データは存在するが、当然に、学習
データに現れない文字列に対応した解析実行時データは
存在しない。学習データに現れた文字列に対応した解析
実行時データであっても、その出現頻度によって、連鎖
確率の値は変化する。
【0061】従って、未知文書を高速形態素解析しよう
として解析実行時データ格納手段16をアクセスした場
合において、該当文字列が存在しない部分や存在しても
その連鎖確率が低い部分等は、高速形態素解析結果にお
けるその部分の精度は、他の部分より低いということが
できる。精度判定手段18は、解析実行時データ格納手
段16に対するアクセスを通じて、このような低精度部
分の判定を行うものである。
【0062】精度・解析結果合成手段19には、精度判
定手段18から精度判定結果が与えられると共に、高速
形態素解析手段17から形態素解析結果が与えられる。
精度・解析結果合成手段19は、これらの入力情報を合
成し、精度判定手段18が精度が不十分であると判断し
た文字列を明示して形態素解析結果を利用者に提示する
ものである。
【0063】以上のように機能ブロック化できる、第2
の実施形態の形態素解析装置10Aの全体処理の流れの
一例を、図9のフローチャートを参照しながら詳述す
る。
【0064】なお、図9は、未知文書中のある1文に対
する処理を示している。また、図9の処理例では、低精
度文字列部分の特定を、解析実行時データ格納手段16
に該当文字列が存在しないことを1要件としている。さ
らに、精度カウンタを装置10A(精度判定手段18)
が内蔵しているとして説明する。この精度カウンタは、
初期値が0である一時メモリである。さらにまた、装置
10A(精度判定手段18)が、低精度文字列のバッフ
ァメモリも内蔵しているとして説明する。
【0065】入力文における文字位置ポインタを備え、
このポインタが示す文字位置から始まるN文字の文字列
を読み込む(ステップ300)。そして、この読み込み
処理で文字列が読み込めなかったか否かに基づいて、最
終番目の文字列の読み込み、それに続く処理が既に終了
しているか否かを判定する(ステップ301)。
【0066】終了していない場合には、読み込んだ文字
列に基づいて検索文字列を作成して解析実行時データ格
納手段16を検索し、検索文字列が解析実行時データ格
納手段16に存在したか否かを判定する(ステップ30
2、303)。
【0067】ここで、作成される検索文字列は一般に複
数組である。例えば、解析実行時データ格納手段16に
図11に示すような拡張文字列の解析実行時データが格
納されているので、N(例えば3)文字の読み込み文字
列のそれぞれの文字を2種類の拡張文字に置き換え、入
力文字列の各文字についての2種類の拡張文字の全ての
組み合わせがそれぞれ、検索文字列となるので、作成さ
れる検索文字列は一般には、2のN乗組だけ存在する。
ステップ303の判定で検索文字列が存在しないとする
場合は、「全て」の検索文字列が存在しない場合であ
り、2のN乗組のうちの1組の検索文字列でも解析実行
時データ格納手段16に存在する場合には、ステップ3
03の判定では存在するとする。
【0068】ステップ303の判定結果、検索文字列が
存在しないという結果を得たときには、精度カウンタの
値を1インクリメントし、今回の読み込み文字列を低精
度文字列格納領域に格納して後述するステップ309に
移行する(ステップ304、305)。
【0069】一方、ステップ303の判定結果、検索文
字列が解析実行時データ格納手段16に存在していた場
合には、その時点での精度カウンタの値が閾値以下であ
るか否かを判定する(ステップ306)。なお、閾値
は、Nの値に応じて定められるものであるが、例えば、
Nが3であれば1ぐらいが適当である。
【0070】ここで、肯定結果が得られたときには、精
度カウンタの値を0クリアすると共に、低精度文字列格
納領域に格納されていた低精度文字列もクリアして後述
するステップ309に移行する(ステップ307)。こ
れに対して、検索文字列が解析実行時データ格納手段1
6に存在しており、しかも、その時点での精度カウンタ
の値が閾値より大きいときには、その時点で低精度文字
列格納領域に格納されていた低精度文字列を、形態素解
析結果で明示する部分として認識して、後述するステッ
プ309に移行する(ステップ308)。
【0071】ステップ309においては、解析実行時デ
ータ格納手段16に存在した1又は複数組の検索文字列
についての連鎖確率に基づいて、今回読み込んだ文字列
までの入力文の文字列についての複数の形態素解析結果
候補の評価値(連鎖確率の積)を更新する。なお、検索
文字列が存在しない場合での取り扱いは任意であるが、
既存の高速形態素解析手段の方法をそのまま採用すれば
良い。例えば、解析実行時データ格納手段16に格納さ
れている解析実行時データが文字数Nの拡張文字列に係
るものである場合に、それらから文字数N−1や文字数
N−2の拡張文字列に係る解析実行時データを形成して
処理する。一般に、文字数が長ければ存在しない文字列
でも、それより短い文字数の部分ごとに見た場合には、
存在することが多い。
【0072】このようなステップ309の処理が終了す
ると、文字位置ポインタを1大きくして上述したステッ
プ300に戻り、入力文中の文字数Nの文字列の読み込
みを行う。
【0073】ステップ300〜309でなる処理ループ
を繰り返すことにより、入力文中の文末側の文字数Nの
文字列の読み込み、それに続くステップ302からステ
ップ309に至る処理も終了し、その後、ステップ30
1に移行してきたときには、最終文字列の処理も終了し
たと判定される。
【0074】このとき、入力文中の各文字を拡張文字に
置き換えた組み合わせの中で最も連鎖確率が高いものを
形態素解析結果とし、この形態素解析結果を低精度文字
列を明示して利用者に提示し、一連の処理を終了する
(ステップ310)。
【0075】以上のような第2の実施形態の形態素解析
装置10Aの処理を、図10に示す文「給与計算システ
ム蜃気楼の構成を図1に示す。」が入力されたとして具
体的に説明する。なお、解析実行時データ格納手段16
には、学習データに連続して現れた3文字を一つの単位
として値(連鎖確率)が割り当てられているものとし、
図11に示す内容が格納されているものとする。図11
に示されていない文字列は値が割り当てられていない存
在しないものとする。また、説明を簡単にするために、
文頭、文末の処理、及び、解析実行時データには3文字
未満の文字列の値はないものとして説明する。さらに、
精度カウンタの値に対する閾値を1として説明する。
【0076】精度カウンタと低精度文字列格納領域を初
期化してから図9の処理を開始する。
【0077】まず、ステップ300で最初の3文字「給
与計」を読み込み、読み込み終了でないことがステップ
301で確認され、その文字列「給与計」について、ス
テップ302で解析実行時データ格納手段16を検索す
ると、存在が確認され(連鎖確率0.71が出力される
ことが存在を表す)、ステップ303、306、307
を経てステップ309に至り、その文字列までの拡張文
字列候補の評価値(スコア)が計算される。従って、文
字列「給与計」に対する処理が終了しても、精度カウン
タの値は0であり、低精度文字列格納領域にも何らの文
字も格納されない。
【0078】文字列「与計算」、「計算シ」、「算シ
ス」、「システ」及び「ステム」についても同様な経路
の処理が実行される。従って、文字列「ステム」に対す
る処理が終了した時点では、精度カウンタの値は0であ
り、低精度文字列格納領域にも何らの文字も格納されな
い。
【0079】次に、文字列「テム蜃」が読み込まれる
と、解析実行時データ格納手段16には対応する解析実
行時データがないので、ステップ304で精度カウンタ
の値が1加算され(これにより「1」となる)、ステッ
プ305で低精度文字列格納領域に「テム蜃」が格納さ
れ、その後、ステップ309に移行する。
【0080】以下、文字列「ム蜃気」、「蜃気楼」、
「気楼の」及び「楼の構」についても同様な処理が実行
される。その結果、文字列「楼の構」に対する処理が終
了したときには、低精度文字列格納領域には文字列「テ
ム蜃気楼の構」が格納され、精度カウンタの値は「5」
となっている。
【0081】次の文字列「の構成」は、解析実行時デー
タ格納手段16に対応する解析実行時データが存在する
ので、ステップ303からステップ306に移行する。
このときの精度カウンタの値「5」は、閾値「1」より
も大きいので、ステップ308で、低精度文字列格納領
域に格納されている低精度文字列「テム蜃気楼の構」が
精度・解析結果合成手段19に与えられ、その後、ステ
ップ309に移行する。文字列「の構成」に対する処理
が終了したときには、その前の文字列「楼の構」に対す
る処理が終了したときと同様に、低精度文字列格納領域
には文字列「テム蜃気楼の構」が格納され、精度カウン
タの値は「5」となっている。
【0082】その次の文字列「構成を」から最終文字列
「示す。」までについてはそれぞれ、ステップ303、
306、307、309という、対応する解析実行時デ
ータが解析実行時データ格納手段16に存在する場合の
一般的な経路での処理が実行される。
【0083】最終文字列「示す。」に対する処理が終了
すると、次には文字列がないので、ステップ310に移
行し、図12に例示するように、形態素解析結果「給与
/計算/システム/蜃気楼の/構成/を/図/1/に/
示/す/。」と、システムが精度に自信がない低精度文
字列「テム蜃気楼の構」とを対比しやすいように利用者
に提示する。
【0084】上記第2の実施形態によれば、高速形態素
解析の精度が良くないと判断された部分文字列に対して
は、その結果を利用者に提示するようにしたので、利用
者が必要に応じて正しい形態素解析結果を入力すること
ができる形態素解析装置を実現できる。
【0085】形態素解析装置の解析結果は、次の構文解
析装置などの入力になるので、その精度が重要であり、
正しくない解析結果を次の装置に渡した場合の悪影響の
度合は大きい。正しいか正しくないかが明らかでない部
分に対しては、利用者に判断させるので、その結果、正
しい形態素解析結果を次の装置に入力させることができ
る。
【0086】ここで、精度判定を解析実行時データ格納
手段に存在するか否かで行っているので、精度判定機能
が処理時間をほとんど長期化させることはない。
【0087】(C)第3の実施形態 次に、本発明による形態素解析装置の第3の実施形態を
図面を参照しながら詳述する。
【0088】この第3の実施形態の形態素解析装置は、
高速形態素解析結果の精度の良否を弁別し、良くない部
分に対しては、自動的に低速形態素解析を実行し、常に
精度が高い形態素解析結果を出力するようにしたことを
大きな特徴としているものである。
【0089】図13は、この第3の実施形態の形態素解
析装置10Bの機能的構成を示すブロック図であり、上
述した第1の実施形態に係る図1や第2の実施形態に係
る図8との同一、対応部分には同一符号を付して示して
いる。
【0090】図13において、第3の実施形態の形態素
解析装置10Bは、低速形態素解析手段11、解析実行
時データ格納手段16、高速形態素解析手段17、精度
判定手段18及び解析結果合成手段20を備える。
【0091】なお、解析実行時データ格納手段16に格
納する解析実行時データの作成方法が第1の実施形態と
同様である場合には、図示は省略しているが、低速形態
素解析手段11、低速形態素解析結果格納手段12、変
換手段13、学習データ格納手段14及び学習手段15
も備える(図1参照)。これら構成要素についての説明
は省略する。この第3の実施形態の場合、解析実行時デ
ータ格納手段16に格納する解析実行時データの作成方
法が第1の実施形態と同様である場合には、低速形態素
解析手段11は、解析実行時データの作成処理のため
と、後述する低精度文字列を含む文字列の形態素解析の
ための双方に利用される。
【0092】また、低速形態素解析手段11、解析実行
時データ格納手段16及び高速形態素解析手段17の機
能自体は、第1の実施形態のものと同様であるので、そ
の機能説明は省略する。さらに、精度判定手段18の機
能自体は、第2の実施形態のものと同様であるので、そ
の機能説明は省略する。
【0093】しかし、この第3の実施形態の場合、精度
判定手段18が、高速形態素解析方法では精度に自信が
ないと判定した、入力文中の低精度文字列は低速形態素
解析手段11に与えられるようになされている。低速形
態素解析手段11は、このような低精度文字列を含む文
字列部分に対して低速形態素解析処理を実行する。
【0094】この第3の実施形態で新たに設けられた解
析結果合成手段20は、高速形態素解析手段17からの
形態素解析結果における低精度文字列に対応した部分
を、低速形態素解析手段11による低速形態素解析結果
に置き換えるものである。
【0095】図14は、第3の実施形態の形態素解析装
置10Bの全体処理の流れの一例を示すフローチャート
であり、第2の実施形態に係る図9との同一処理ステッ
プには、同一符号を付して示している。
【0096】第2の実施形態の場合、確定された低精度
文字列はステップ308で利用者への提示対象として認
識されるが、この第3の実施形態の場合には、確定され
た低精度文字列は、ステップ308aで低速形態素解析
手段11に与えられる。
【0097】また、第2の実施形態の場合、ステップ3
10で、低精度文字列を明示した形で高速形態素解析結
果を利用者に提示していたが、この第3の実施形態の場
合には、高速形態素解析結果における低精度文字列に対
応した部分を、低速形態素解析結果に置き換え、置き換
え後の形態素解析結果を利用者に提示する。なお、低速
形態素解析は、高速形態素解析結果における、低精度文
字列の先頭文字より前の形態素区切り位置と、低精度文
字列の最終文字より後の形態素区切り位置とに挟まれた
文字列に対して実行される。
【0098】以上の2点を除けば、他の処理は第2の実
施形態と同様であり、その説明は省略する。
【0099】上述した図10に示す文「給与計算システ
ム蜃気楼の構成を図1に示す。」が、この第3の実施形
態の形態素解析装置10Bに入力された場合にも、文字
列「テム蜃気楼の構」が低精度文字列として認識される
のは、第2の実施形態と同様である。
【0100】今、低速形態素解析手段11が内蔵する形
態素辞書には、「蜃気楼」が一つの形態素(名詞)とし
て登録されているものとする。低速形態素解析手段11
は、低精度文字列「テム蜃気楼の構」と、高速形態素解
析結果「給与/計算/システム/蜃気楼の/構成/を/
図/1/に/示/す/。」とが与えられると、低精度文
字列「テム蜃気楼の構」の先頭文字より前の形態素区切
り位置と、低精度文字列の最終文字より後の形態素区切
り位置とに挟まれた文字列「システム蜃気楼の構成」が
低速形態素解析対象部分として解析を実行する。
【0101】そして、低速形態素解析手段11は、図1
5に示すように、「システム」、「蜃気楼」、「の」、
及び「構成」を別々の形態素として解析結果を出力す
る。高速形態素解析結果「給与/計算/システム/蜃気
楼の/構成/を/図/1/に/示/す/。」の該当部分
がこの低速形態素解析結果に置き換えられるので、最終
的な形態素解析結果は、図16に示すように、「給与/
計算/システム/蜃気楼/の/構成/を/図/1/に/
示/す/。」となる。
【0102】この第3の実施形態での解析結果は、第2
の実施形態の解析結果に比べて、「蜃気楼」と「の」を
別の形態素として解析しており、精度が向上している。
【0103】上記第3の実施形態によれば、高速形態素
解析の精度が良くないと判断された部分文字列又はその
近傍に対しては、自動的に低速形態素解析を実行し、低
速形態素解析結果に置き換えるようにしたので、常に精
度が良い形態素解析結果を出力する形態素解析装置を実
現できる。
【0104】この第3の実施形態においても、高速形態
素解析を基本解析処理としているので、入力文を全て低
速形態素解析するよりも短い時間で解析を実行できる。
【0105】(D)第4の実施形態 次に、本発明による形態素解析装置の第4の実施形態を
図面を参照しながら詳述する。
【0106】この第4の実施形態の形態素解析装置は、
高速形態素解析結果の精度の良否を弁別し、良くない部
分に対しては、自動的に低速形態素解析を実行し、常に
精度が高い形態素解析結果を出力すると共に、低速形態
素解析結果を高速形態素解析の解析実行時データに学
習、反映させ、学習後には、精度が良くなかった文章と
同じ形態素が含まれる文章に対して精度良くかつ高速に
形態素解析できるようにしたことを大きな特徴としてい
るものである。
【0107】図17は、この第4の実施形態の形態素解
析装置10Cの機能的構成を示すブロック図であり、既
述した各実施形態に係る図1、図8及び図13との同
一、対応部分には同一符号を付して示している。
【0108】図17において、第4の実施形態の形態素
解析装置10Cは、低速形態素解析手段11、変換手段
13、学習データ格納手段14、学習手段15、解析実
行時データ格納手段16、高速形態素解析手段17、精
度判定手段18及び解析結果合成手段20を備える。
【0109】第4の実施形態の形態素解析装置10Cの
全ての構成要素はそれぞれ、既述した各実施形態の対応
する要素と同一機能を果たすものである。
【0110】しかし、この第4の実施形態の形態素解析
装置10Cにおいては、低精度文字列を含む文字列に対
して低速形態素解析手段11が解析して得た結果を、変
換手段13に与えている点が第1や第3の実施形態と異
なっている。変換手段13から解析実行時データ格納手
段16への処理経路上での各手段の機能は、第1の実施
形態と同様である。
【0111】なお、低速形態素解析手段11、変換手段
13、学習データ格納手段14、学習手段15及び解析
実行時データ格納手段16が、第1の実施形態と同様な
外部から入力された学習用文書に対する処理をも担うも
のであっても良いことは勿論である。
【0112】図18は、第4の実施形態の形態素解析装
置10Cの全体処理の流れの一例を示すフローチャート
であり、第3の実施形態に係る図14との同一処理ステ
ップには、同一符号を付して示している。
【0113】第4の実施形態の形態素解析装置10Cで
は、第3の実施形態の最終処理ステップ310aより後
にステップ311及び312の処理を設けている。
【0114】ステップ311は、低速形態素解析結果
を、高速形態素解析の学習手段15への入力用データ
(学習データ)に変換して追加格納する処理である。ス
テップ312は、その時点での全ての学習データを用い
て、解析実行時データを作成する処理である。
【0115】低精度文字列を含む文字列に対して、例え
ば、上述した図15に示すような低速形態素解析結果が
得られた場合に、変換手段13が上述した図6に示すよ
うな変換方法で学習データを変換すると、図19に示す
ような拡張文字列(学習データ)が得られる。
【0116】このような学習データが、既存の学習デー
タに追加され、追加後の学習データ全体に対して、学習
手段15が学習すると、低速形態素解析結果に対応した
部分の解析実行時データとして図20に示すようなデー
タが得られて(他の解析実行時データも当然に得られ
る)、解析実行時データ格納手段16に格納される。す
なわち、図11に示すようなデータ(連鎖確率は変化す
る)に加えて、図20に示すようなデータが新たに加わ
ることになる。
【0117】その結果、学習したデータによって解析可
能な文が解析対象として入力された場合には、例えば、
「給与計算システム蜃気楼の値段は2000円です。」
が入力された場合には、前回低精度文字列と認定された
部分も精度判定手段18で低精度と判定されなくなり、
第3の実施形態と同程度の精度の高速形態素解析結果
を、毎回、低速形態素解析手段11を起動しないで得ら
れるようになる。
【0118】上記第4の実施形態によれば、高速形態素
解析の精度が良くない場合には自動的に低速形態素解析
を実行し、さらにその結果を高速形態素解析の学習のた
めのデータとして使用し、学習後には、精度が良くなか
った文章と同じ形態素が含まれる文章に対して精度良く
かつ高速に形態素解析できる形態素解析装置を実現でき
る。
【0119】(E)他の実施形態 上記各実施形態においては、解析実行時データが1カテ
ゴリーのものを示したが、分野別などの複数カテゴリー
のものを用意し、未知文書の入力時にカテゴリーを指定
させるようにしても良い。この場合、第1の実施形態で
は、学習用文書を入力させる際に、その学習用文書のカ
テゴリーも指定することを要する。また、第3や第4の
実施形態では、低速形態素解析手段が適用する専門辞書
があれば、そのカテゴリーのものとなる。さらに、第4
の実施形態では、低速形態素解析結果を、未知文書の入
力時に指定されたカテゴリーの解析実行時データに反映
させることとなる。
【0120】また、第1の実施形態の説明では、学習デ
ータ格納手段14への格納が追加格納か新規格納(前の
ものをクリアしての格納)かを明確に示さなかったが、
いずれであっても良い。また、外部から、格納方法を変
換手段13にその都度指示できるようにしても良い。
【0121】さらに、第1及び第4の実施形態におい
て、学習手段15を以下のようにしても良い。学習デー
タ格納手段14に追加された学習データについてのみ、
文字列の出現頻度を計数して解析実行時データを作成す
る。この場合、解析実行時データ格納手段16には、連
鎖確率だけでなく出現頻度も格納しておき、今回の集計
結果と、解析実行時データ格納手段16に既に格納され
ている出現頻度とから、学習手段15は、既存の解析時
学習データの文字列や、新規発生の文字列の連鎖確率を
決定するようにしても良い。
【0122】さらにまた、第2〜第4の実施形態におい
ては、解析実行時データ格納手段16に存在しないこと
を低精度文字列の認定条件にしているものを示したが、
存在しても、その値(連鎖確率)が所定閾値より小さい
ことを低精度文字列の認定条件にするようにしても良
い。
【0123】また、第2〜第4の実施形態において、低
精度文字列の範囲を上記のように1文の部分文字列とす
るのではなく、判定文字列を含む1文全てを低精度文字
列として扱うようにしても良い。第2の実施形態であれ
ば、文単位に低精度か否かの情報が付随される。第3の
実施形態であれば、低精度認定時にその文全体が低速形
態素解析手段11で解析されることになる。第4の実施
形態で有れば、文全体の低速形態素解析結果が、解析実
行時データ格納手段16の格納内容に反映される。この
ように文全体で精度推測を行う場合には、最適な高速形
態素解析結果での連鎖確率を、入力文の文字数などで正
規化し、その値を閾値と比較することなどによって、そ
の文の精度を推測するようにしても良い。
【0124】また、解析実行時データ格納手段16の格
納内容を利用しないで精度を判定する方法を単独で採用
したり、解析実行時データ格納手段16の格納内容を利
用して精度を判定する方法と併用したりしても良い。例
えば、解析実行時データ格納手段16の格納内容を利用
しないで精度を判定する方法としては、例えば、ひらが
なや漢字などのある1種類の文字種が連続して所定文字
数以上つながっている部分の中央所定文字数部分を精度
が低いと判定するような方法を挙げることができる。ま
た、第2水準の漢字を所定文字数以上含む文の精度を低
いと判定するようにしても良い。
【0125】さらに、第3及び第4の実施形態において
は、低精度文字列に対応した低速形態素解析を1文毎に
実行するものを示したが、文書全体を高速形態素解析し
た後でまとめて精度の悪かった部分に対して低速形態素
解析を実行するようにしても良い。
【0126】さらにまた、上記各実施形態の具体的説明
においては、解析実行時データを構成する拡張文字の拡
張情報が、形態素区切り情報だけのものを示したが、こ
れに加えて、品詞情報や単語の発音情報を含むものであ
っても良い。この場合、当然に、変換手段や学習手段も
それに応じたものとなる。解析実行時データをこのよう
にした場合には、単語分割と品詞付与を行なう形態素解
析や、単語の発音を決定する形態素解析を高速化するこ
とができる。
【0127】また、上記各実施形態においては、対象と
する自然言語が日本語である形態素解析装置を示した
が、他の言語の形態素解析装置に対しても本発明を適用
することができる。
【0128】
【発明の効果】以上のように、本発明の形態素解析装置
によれば、利用者に負担をかけることなく、形態素解析
結果の精度向上や、解析処理時間の短縮化を期待でき
る。
【図面の簡単な説明】
【図1】第1の実施形態の構成を示すブロック図であ
る。
【図2】第1の実施形態の処理の概要を示すフローチャ
ートである。
【図3】第1の実施形態の学習用文書の一例を示す説明
図である。
【図4】図3の第1文目についての低速形態素解析結果
を示す説明図である。
【図5】図3の学習用文書に対応した学習データを示す
説明図である。
【図6】第1の実施形態の変換手段による詳細処理例を
示すフローチャートである。
【図7】図6のステップ206の処理の説明図である。
【図8】第2の実施形態の構成を示すブロック図であ
る。
【図9】第2の実施形態の処理を示すフローチャートで
ある。
【図10】形態素解析対象文を示す説明図である。
【図11】解析実行時データ格納手段16の格納内容例
を示す説明図である。
【図12】第2の実施形態で図10の文を解析した出力
内容例を示す説明図である。
【図13】第3の実施形態の構成を示すブロック図であ
る。
【図14】第3の実施形態の処理を示すフローチャート
である。
【図15】第3の実施形態の低精度文字列に対する低速
形態素解析結果例を示す説明図である。
【図16】第3の実施形態で図10の文を解析した最終
的な解析結果例を示す説明図である。
【図17】第4の実施形態の構成を示すブロック図であ
る。
【図18】第4の実施形態の処理を示すフローチャート
である。
【図19】第4の実施形態での低精度文字列に対する低
速形態素解析結果を学習データに変換した例を示す説明
図である。
【図20】第4の実施形態での低精度文字列に対応した
学習データから形成された解析実行時データの例を示す
説明図である。
【符号の説明】
10、10A、10B、10C…形態素解析装置、 11…低速形態素解析手段、 13…変換手段、 15…学習手段、 17…高速形態素解析手段、 18…精度判定手段、 19…精度・解析結果合成手段、 20…解析結果合成手段。
フロントページの続き (72)発明者 北村 美穂子 東京都港区虎ノ門1丁目7番12号 沖電気 工業株式会社内 Fターム(参考) 5B091 AA15 CA02 CD11 EA01

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 自然言語文に現れる所定文字数でなる部
    分文字列とその絶対的又は相対的な頻度情報とを少なく
    とも含む組データである解析実行時データを多数格納し
    ている解析実行時データ格納手段と、未知文章に対し
    て、上記解析実行時データ格納手段の格納内容を参照し
    て形態素解析を実行する第1の形態素解析手段とを有す
    る形態素解析装置において、 上記第1の形態素解析手段からの形態素解析結果の精度
    を推測する精度判定手段を有することを特徴とする形態
    素解析装置。
  2. 【請求項2】 上記精度判定手段が精度が低いと推測し
    た文章又は文字列を明示して、上記第1の形態素解析手
    段からの形態素解析結果を出力する解析結果出力手段を
    有することを特徴とする請求項1に記載の形態素解析装
    置。
  3. 【請求項3】 上記精度判定手段が精度が低いと推測し
    た低精度部分又はそれを含む範囲の文章又は文字列に対
    し、形態素辞書を利用した形態素解析を行う第2の形態
    素解析手段を有することを特徴とする請求項1又は2に
    記載の形態素解析装置。
  4. 【請求項4】 上記第1及び第2の形態素解析手段の形
    態素解析結果を1個の形態素解析結果にまとめる解析結
    果合成手段を有することを特徴とする請求項3に記載の
    形態素解析装置。
  5. 【請求項5】 上記第2の形態素解析手段の形態素解析
    結果のデータ形式を解析実行時データを作成可能なデー
    タ形式に変換した学習データを作成する変換手段と、 学習データから多数の解析実行時データを作成して上記
    解析実行時データ格納手段に格納させる学習手段とを有
    することを特徴とする請求項3又は4に記載の形態素解
    析装置。
JP2003080537A 2003-03-24 2003-03-24 形態素解析装置 Expired - Fee Related JP3939264B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003080537A JP3939264B2 (ja) 2003-03-24 2003-03-24 形態素解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003080537A JP3939264B2 (ja) 2003-03-24 2003-03-24 形態素解析装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP10052264A Division JPH11250056A (ja) 1998-03-04 1998-03-04 形態素解析装置及び解析実行時データ作成装置

Publications (2)

Publication Number Publication Date
JP2003296323A true JP2003296323A (ja) 2003-10-17
JP3939264B2 JP3939264B2 (ja) 2007-07-04

Family

ID=29398183

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003080537A Expired - Fee Related JP3939264B2 (ja) 2003-03-24 2003-03-24 形態素解析装置

Country Status (1)

Country Link
JP (1) JP3939264B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009104630A (ja) * 2004-01-09 2009-05-14 Microsoft Corp 大規模な電子的なドキュメントのコレクション(集まり)を探索するためのドキュメント関連性の決定に対する機械学習アプローチ
JP2013069157A (ja) * 2011-09-22 2013-04-18 Toshiba Corp 自然言語処理装置、自然言語処理方法および自然言語処理プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009104630A (ja) * 2004-01-09 2009-05-14 Microsoft Corp 大規模な電子的なドキュメントのコレクション(集まり)を探索するためのドキュメント関連性の決定に対する機械学習アプローチ
JP2013069157A (ja) * 2011-09-22 2013-04-18 Toshiba Corp 自然言語処理装置、自然言語処理方法および自然言語処理プログラム

Also Published As

Publication number Publication date
JP3939264B2 (ja) 2007-07-04

Similar Documents

Publication Publication Date Title
JP4993762B2 (ja) 用例ベースの機械翻訳システム
JP3429184B2 (ja) テキスト構造解析装置および抄録装置、並びにプログラム記録媒体
US6816830B1 (en) Finite state data structures with paths representing paired strings of tags and tag combinations
JP5403696B2 (ja) 言語モデル生成装置、その方法及びそのプログラム
Mori et al. A machine learning approach to recipe text processing
US6876963B1 (en) Machine translation method and apparatus capable of automatically switching dictionaries
KR20140021838A (ko) 문법 오류 검출 방법 및 이를 위한 오류검출장치
JP5100770B2 (ja) 漢字文における単語区分方法
JPH10326275A (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
KR101023209B1 (ko) 문서 번역 장치 및 그 방법
JP2002149643A (ja) 日本語の表意文字の読み方を予測する方法
JP5097802B2 (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
JP4979637B2 (ja) 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム
JP5025603B2 (ja) 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP3939264B2 (ja) 形態素解析装置
JP5795302B2 (ja) 形態素解析装置、方法、及びプログラム
JP4088171B2 (ja) テキスト解析装置、方法、プログラム及びそのプログラムを記録した記録媒体
JP2007148630A (ja) 特許分析装置、特許分析システム、特許分析方法およびプログラム
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
CN114444491A (zh) 新词识别方法和装置
JP3952964B2 (ja) 読み情報決定方法及び装置及びプログラム
KR20080028655A (ko) 품사 태깅 장치 및 태깅 방법
JP5245291B2 (ja) 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム
CN113330430A (zh) 语句结构向量化装置、语句结构向量化方法及语句结构向量化程序

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070327

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees