JP2002351871A - 形態素解析装置、形態素解析方法、プログラムおよび記録媒体 - Google Patents

形態素解析装置、形態素解析方法、プログラムおよび記録媒体

Info

Publication number
JP2002351871A
JP2002351871A JP2001155867A JP2001155867A JP2002351871A JP 2002351871 A JP2002351871 A JP 2002351871A JP 2001155867 A JP2001155867 A JP 2001155867A JP 2001155867 A JP2001155867 A JP 2001155867A JP 2002351871 A JP2002351871 A JP 2002351871A
Authority
JP
Japan
Prior art keywords
connection
user
attributes
dictionary
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001155867A
Other languages
English (en)
Inventor
Yuichi Kojima
裕一 小島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2001155867A priority Critical patent/JP2002351871A/ja
Publication of JP2002351871A publication Critical patent/JP2002351871A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 (修正有) 【課題】 ユーザが接続表を部分的に書き換えできるよ
うにして、ユーザが使用する文章の種類に応じて、手軽
に解析処理の精度向上をはかれる形態素解析装置を提供
する。 【解決手段】 隣り合う形態素間の接続情報をペナルテ
ィあるいはスコアあるいは接続の可否として保持した接
続表104とを有して、入力文字列を構成する形態素の
列に分割する形態素解析装置において、ユーザの指定す
る形態素に対して、通常既定された接続属性またはユー
ザの定義する接続属性を保持するユーザ辞書103と、
接続表書換データ106を用いて、前記接続表104を
修正更新する接続表書換部105とを有し、前記接続表
104は、通常既定された接続属性とユーザの定義した
接続情報との組み合わせの接続属性に対する接続情報か
らなる可変部分を持ち、ユーザ定義語に対する接続属性
として非プリセットの接続属性を使用可能とした。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、形態素解析装置、
形態素解析方法、形態素解析装置の機能を実行するプロ
グラムおよびそのプログラムを記録した記憶媒体に関
し、より詳細には、形態素解析処理に使われる接続表を
ユーザが編集できるようにして、精度向上を図れる形態
素解析技術に関し、機械翻訳、音声合成、キーワード検
索等の自然言語処理に適用して好適である。
【0002】
【従来の技術】機械翻訳、音声合成、キーワード検索等
の自然言語処理においては、入力した自然言語文に対し
て、形態素解析を行うことが一般的である。従来、この
ような形態素解析は、入力された自然言語文の先頭側か
ら取出し、単語辞書を参照して一致する単語を検索し、
用言の場合には活用語尾表を用いて語尾を活用させて求
めた単語が、直前に求めた単語と接続可能であるかを接
続表によって決定し、接続可能であればその単語を形態
素とし、接続可能でなければ他の単語に対して判断し直
す。
【0003】
【発明が解決しようとする課題】一方、形態素解析処理
の解析精度が解析対象となる文の種類ごとに異なること
は以前から知られており、一旦形態素解析に失敗する
と、その結果に基づいて行う解析にも失敗する可能性が
高いため、自然言語処理では、形態素解析の精度を上げ
ることが重要な課題となっている。この原因としては、
例えば新聞記事などでは比較的に名詞連続や体言止めが
発生しやすいのに比べ、会話調の文章ではその頻度は少
ないように、文の種類ごとに、語彙と文法が少しずつ異
なっていることが考えられる。また、単語辞書に語彙が
存在しないことは、性能に直接的な影響(語が検出でき
ない)があるため従来から、専門用語辞書やユーザ辞書
などの形で対策がとられてきた。しかしながら、近年、
ネットワークの発達により、形態素解析処理の対象とな
る文章の種類が、従来、対象とされてきた学校文法に沿
ったような文章以上に広がってきている。例えば、電子
文書における引用符(行頭の">"など)やURL(http:/
/....)などのように、既存の品詞では対応が困難な言語
現象が増加している。通常、形態素解析における品詞は
各品詞間の接続属性を記述した接続表によって定義され
ているので、この接続表を書き換えることによって新た
な言語現象に対応することができる。その一方、システ
ムおよび文法に不案内なユーザに接続表書き換えの機能
全体を提供することは、解析性能劣化の原因ともなり、
また、実装上は100種類以上におよぶと思われる品詞間
の接続情報の把握は、ユーザにとって手軽な行為とは言
い難い。この問題点を解決するために、特開平8−44
743号公報の技術では、希望解析結果を表す文字列が
与えられたときに、その内容に基づいて接続表および辞
書の格納情報を追加、変更することによって、接続表お
よび辞書を一緒に簡単な入力操作によって恒久的に変更
できるようにした。しかし、この技術にでは、ユーザの
希望する形態素結果が得られないときに、その都度、接
続表および辞書を修正する作業を行わなければならず、
一向にユーザの手間が減ることはない。
【0004】また、特開平9−204424号公報の技
術では、ユーザから接続表の表示指示がされると、前方
の単語又は品詞を行又は列の見出しに展開し、後方の単
語又は品詞を列又は行の見出しに展開して、行と列の交
点に前方の単語又は品詞と後方の単語又は品詞との接続
の可否に係る接続規則を配置して、行と列からなる表形
式のデータに変換して、このデータを表示する。この表
示された表をユーザが編集し、その編集結果を接続表に
逆変換して書き出すようにして、接続表をユーザが編集
できるようにした。しかし、この技術では、既存の単語
や品詞に対しての接続可否の接続規則のみが編集できる
だけであり、新たに追加される単語や品詞を含めて編集
することはできない。本発明は、上述の問題を解決する
ためのものであり、ユーザが接続表を部分的に書き換え
できるようにして、ユーザが使用する文章の種類に応じ
て、手軽に解析処理の精度向上をはかれる形態素解析装
置、形態素解析方法、形態素解析装置の機能を実行する
プログラムおよびそのプログラムを記録した記憶媒体を
提供することを目的とする。
【0005】
【課題を解決するための手段】上記の問題を解決するた
めに、本発明の請求項1の形態素解析装置は、少なくと
も形態素の表記および接続属性情報を格納した形態素辞
書と、隣り合う形態素間の接続情報をペナルティあるい
はスコアあるいは接続の可否として保持した接続表とを
有して、入力文字列を構成する形態素の列に分割する形
態素解析装置において、形態素に対する通常既定された
接続属性および/またはユーザの定義する接続属性間の
接続情報とからなる接続表書換データと、ユーザの指定
する形態素に対して、通常既定された接続属性またはユ
ーザの定義する接続属性を保持するユーザ辞書と、前記
接続表書換データを用いて、前記接続表を修正更新する
接続表書換部とを有し、前記接続表は、通常既定された
接続属性とユーザの定義した接続情報との組み合わせの
接続属性に対する接続情報からなる可変部分を持ち、ユ
ーザ定義語に対する接続属性として非プリセットの接続
属性が使用可能であるようにした。従って、解析性能が
保証されるため、書き換えられては困る通常の接続属性
間の接続を隠蔽したまま、ユーザが接続表を修正でき
る。また、本発明の請求項2は、請求項1に記載の形態
素解析装置において、前記接続表書換データは、接続属
性を簡易化した接続属性大分類に基づいても記述可能で
ある。従って、従来の形態素解析装置では、実装に用い
られる品詞数が100以上にもなっていたが、本発明で
は接続属性大分類としてまとめられるのでユーザの接続
情報記述の負担を大幅に軽減することができる。また、
本発明の請求項3は、請求項1または2に記載の形態素
解析装置において、前記接続表書換データは、ある特定
の品詞の接続属性を継承するように記述可能である。従
って、元となる品詞の指定およびその品詞との差分情報
1つという、 最低2つの情報で新しい接続情報が記述
可能となり、ユーザの接続情報記述の負担を大幅に軽減
することができる。また、本発明の請求項4は、請求項
1乃至3のいずれか1に記載の形態素解析装置におい
て、前記接続表書換データおよび前記ユーザ辞書は、文
字情報によって作成される。従って、暗号化(バイナリ
化)されたデータとは異なり、接続表書換データが文字
情報のような専用ツールを必要とせずに接続表書換デー
タを編集できるので、ユーザによる編集の機会をひろげ
ることができる。また、本発明の請求項5は、請求項4
に記載の形態素解析装置において、前記ユーザ辞書は、
見出しの形態素を正規表現によって作成できる。従っ
て、"http://www.... "のような可変の文字列に対して
もユーザ定義による接続属性を記述することができるの
で、本発明の利用の幅が拡大される。
【0006】また、本発明の請求項6は、請求項1乃至
5のいずれか1に記載の形態素解析装置において、前記
ユーザ辞書と前記接続表書換データを1組とした複数組
のユーザ辞書と接続表書換データと、前記複数組の接続
表書換データおよびユーザ辞書の内ユーザに指定された
組に記述された接続属性に重なりが生じないようにユニ
ークに振り直して、1つの接続表書換データおよびユー
ザ辞書を生成するマージ処理部とを有する。従って、ユ
ーザの作成した接続情報をネットワーク等を使ってやり
とりされるような環境を想定した場合、他人の作成した
接続情報をそれぞれ干渉しあわないような形で利用する
ことができるので、他人の作成した接続情報の有効活用
がはかられる。また、本発明の請求項7の形態素解析方
法は、少なくとも形態素の表記および接続属性情報を格
納した形態素辞書と、隣り合う形態素間の接続情報をペ
ナルティあるいはスコアあるいは接続の可否として保持
した接続表とを有して、入力文字列を構成する形態素の
列に分割する形態素解析方法において、通常既定された
接続属性とユーザの定義した接続情報との組み合わせの
接続属性に対する接続情報からなる前記接続表の可変部
分を、形態素に対する通常既定された接続属性および/
またはユーザの定義する接続属性間の接続情報とからな
る接続表書換データを用いて修正更新し、ユーザの指定
する形態素に対して、ユーザ辞書に通常既定された接続
属性またはユーザの定義する接続属性を保持するように
して、ユーザ定義語に対する接続属性として非プリセッ
トの接続属性が使用可能であるようにした。また、本発
明の請求項8は、請求項7に記載の形態素解析方法にお
いて、前記接続表書換データは、接続属性を簡易化した
接続属性大分類に基づいても記述可能である。また、本
発明の請求項9は、請求項7または8に記載の形態素解
析方法において、前記接続表書換データは、ある特定の
品詞の接続属性を継承するように記述可能である。ま
た、本発明の請求項10は、請求項7乃至9のいずれか
1に記載の形態素解析方法において、前記接続表書換デ
ータおよび前記ユーザ辞書は、文字情報によって作成さ
れる。また、本発明の請求項11は、請求項10に記載
の形態素解析方法において、前記ユーザ辞書は、見出し
の形態素を正規表現によって作成できる。また、本発明
の請求項12は、請求項7乃至11のいずれか1に記載
の形態素解析方法において、前記ユーザ辞書と前記接続
表書換データを1組とした複数組のユーザ辞書と接続表
書換データを有し、前記複数組の接続表書換データおよ
びユーザ辞書の内ユーザに指定された組に記述された接
続属性に重なりが生じないようにユニークに振り直し
て、1つの接続表書換データおよびユーザ辞書を生成す
る。
【0007】また、本発明の請求項13のプログラム
は、少なくとも形態素の表記および接続属性情報を格納
した形態素辞書と、隣り合う形態素間の接続情報をペナ
ルティあるいはスコアあるいは接続の可否として保持し
た接続表とを有して、入力文字列を構成する形態素の列
に分割させるための形態素解析プログラムであって、前
記コンピュータを、通常既定された接続属性とユーザの
定義した接続情報との組み合わせの接続属性に対する接
続情報からなる前記接続表の可変部分を、形態素に対す
る通常既定された接続属性および/またはユーザの定義
する接続属性間の接続情報とからなる接続表書換データ
を用いて修正更新し、ユーザの指定する形態素に対し
て、ユーザ辞書に通常既定された接続属性またはユーザ
の定義する接続属性を保持するようにして、ユーザ定義
語に対する接続属性として非プリセットの接続属性が使
用可能であるように機能させる。また、本発明の請求項
14は、請求項13に記載のプログラムにおいて、前記
ユーザ辞書と前記接続表書換データを1組とした複数組
のユーザ辞書と接続表書換データを有し、前記複数組の
接続表書換データおよびユーザ辞書の内ユーザに指定さ
れた組に記述された接続属性に重なりが生じないように
ユニークに振り直して、1つの接続表書換データおよび
ユーザ辞書を生成する。また、本発明の請求項15のコ
ンピュータ読み取り可能な記録媒体は、請求項13また
は14に記載のプログラムを記憶した。
【0008】
【発明の実施の形態】以下に、図面を用いて本発明の実
施の形態の構成および動作を詳細に述べる。形態素解析
の手法には、解析範囲の自立語の数が最小になるような
形態素列を解とする方法、解析範囲の先頭から逐次、最
も長く文節を形成できた部分までを確定していく方法等
があるが、以下では、接続可能なすべてのパスの内で、
各単語に付与したコストの累計が最小になるパスを選択
するコスト最小法を用いるものとして説明する。このコ
スト最小法による形態素解析技術は、例えば、文献「未
登録語を含む日本語文の形態素解析」、吉村・武内・津
田・首藤、情報処理学会論文誌Vol.30, No.3, pp.294-3
01(1989年3月)や特開昭64−48171号公報
「日本語形態素解析装置」等に詳述されているので説明
は省略する。
【0009】<第1の実施の形態>図1は、本発明の第
1の実施の形態における形態素解析装置を示すブロック
図である。図1において、本形態素解析装置は、少なく
とも形態素解析部101、形態素辞書102、ユーザ辞
書103、接続表104、接続表書換部105、接続表
書換データ106とから構成される。形態素解析部10
1は、入力文章の各文字位置からの可能な形態素候補に
対して、形態素辞書102およびユーザ辞書103を参
照して一致する単語があるか検索し、検索された単語
が、直前および直後に形態素候補とみなされた単語と接
続可能なものか否かを接続表104を参照して決定し、
可能であればその単語を形態素候補として出力し、不可
能であれば他の単語に対して判断し直し、最終的に得ら
れた形態素候補の列のうち各単語に付与したコストの累
計が最小になる形態素候補の列を形態素列として選択す
る。形態素辞書102は、各形態素に対して、少なくと
も表記、接続属性およびコスト情報等のからなるデータ
構造をもち、図2に示すようなデータを格納されてい
る。ここで接続属性には、品詞、活用型、活用形、接続
情報等が含まれる。ユーザ辞書103は、形態素辞書1
02と同様のデータ構造を備えており、表記、接続属性
およびコストはすべて文字情報である。また、このユー
ザ辞書103には、図3に示すように、表記として正規
表現で単語を表現できること、および、接続属性として
ユーザ定義品詞の「ユーザ定義1」、「ユーザ定義
2」、・・・を用いることができる。
【0010】例えば、図3は、ユーザ定義品詞を用いて
URL(Uniform Resource Locator)の解析を行うための
語彙を新たに追加したものである。接続表104は、隣
接する形態素が接続できるかどうかを定義したテーブル
である。このテーブルは形態素W(i-1)の後に形態素W(i)
が検出された場合、形態素W(i)の接続属性とその直前の
形態素W(i-1)の接続属性に対して、接続できるかどうか
を表現するペナルティ、スコアあるいは接続の可否を表
したものである。また、この接続表は、その保持する情
報の中に可変部分を持っており、この可変部分は予め形
態素解析装置において用意された既定の品詞等による接
続属性(既定の接続属性)とは異なる複数のユーザ定義
品詞による接続属性(ユーザ定義の接続属性)からすべ
ての接続属性(既定の接続属性とユーザ定義の接続属
性)に対する接続情報、および既定の接続属性からユー
ザ定義の接続属性に対する接続情報である。接続表書換
データ106は、図4に示したように、隣り合う形態素
のうち、前の形態素の接続属性と後の形態素の接続属性
に対して、接続できるかどうかを表現するペナルティ、
スコアあるいは接続の可否を表したものからなるデータ
構造をもっており、ユーザ辞書103と同様に、すべて
文字情報である。これらの前と後の形態素の接続属性
は、既定の品詞等によるものと、 「文字列1」.「文字列2」 という形式の接続属性も指定できる。これらの文字列
1、文字列2には、既定の品詞名、ユーザ定義の品詞ま
たは接続属性の大分類名を指定し、「文字列2」なる接
続属性が、デフォルトの接続を「文字列1」の接続属性
から受け継いでいると解釈する。例えば、図4の「名
詞.ユーザ定義1」は、ユーザの定義した「ユーザ定義
1」なる接続属性が、デフォルトの接続を「名詞」の接
続属性から受け継いでいると解釈する。接続属性の大分
類は、図5に示すように、いくつかの既定の品詞等の接
続属性をまとめて簡易化した大分類名を付したものであ
る。この場合、その既定の接続属性のリスト(図5にお
ける第2項)の先頭の接続属性を継承する。例えば、図
5において、大分類「名詞」は、「普通名詞」の接続属
性を継承する。また、継承の指定がないユーザ定義の接
続属性の場合、各接続属性間のデフォルトの接続は接続
不可とする。接続表書換部105は、ユーザの与えた接
続表書換データ106を用いて接続表104のうちの可
変部の更新を行う。
【0011】接続表書換部105の動作を図6を用いて
説明する。図6において、(A)はユーザが与えた接続
表書換データ106であり、第1列は前の形態素の接続
属性、第2列は後の形態素の接続属性、第3列はこれら
の前と後の形態素の接続できるかどうかを、「接続可
否」で表している(○は「可」、×は「否」である)。
ここで接続属性A,B,Cは既定の接続属性であり、接
続属性U1,U2,U3はユーザ定義の接続属性であ
る。(B)は接続表の非可変部分であり、ここでは接続
属性A,B,Cという既定の接続属性に関して接続可否
が記述されている。接続表書換データ106中の接続属
性名を取り出して、取り出された接続属性を既定の接続
属性とあわせて行方向(後の形態素)の接続属性名のリ
ストと列方向(前の形態素)の接続属性名のリストをつ
くり、それらの交わった要素において接続情報(接続の
可否)を割り当てるようにして、接続表104に可変部
分を構成させる。図6の例では、「A.U1」、「U
2」、「A.U3」の3つが取り出され、行方向、列方
向に「A.U1」、「U2」、「A.U3」を追加す
る。可変部分の行方向のユーザ定義の接続属性と列方向
の既定の接続属性との接続可否((C)の部分)は、継
承指定がある場合(例えば、「A.U1」)、その継承
もとの接続属性(この例では接続属性A)の接続情報
(接続の可否)を1列分コピーし、継承指定がない場合
(例えば、「U2」)、接続不可の接続情報を1列分設
定する。同様にして、可変部分の列方向のユーザ定義の
接続属性と行方向の既定の接続属性との接続可否
((D)の部分)は、継承指定がある場合(例えば、
「A.U3」)、その継承もとの接続属性(この例では
接続属性A)の接続情報(接続の可否)を1行分コピー
し、継承指定がない場合(例えば、「U2」)、接続不
可の接続情報を1行分設定する。その後、接続表書換デ
ータ106中の接続情報を参照し、(E)部分への設定
および(C)と(D)部分の修正を行う。
【0012】上述のように構成された本形態素解析装置
の動作概要を説明する。先ず、ユーザが取り扱っている
文章の種類に適した形態素解析を行うために、自分用の
接続表104を作成する。このためにユーザはユーザ定
義の品詞等を用いて接続書換データ106を作成し、こ
れを接続表書換部105によって接続表104へ変換す
ることによって修正を行う。次に、ユーザ辞書103に
新しく追加される形態素に対してこのユーザ定義の品詞
等を用いて接続情報を追加する。このような準備を行っ
てから、ユーザは形態素辞書102および修正されたユ
ーザ辞書103と接続表104を用いて、入力された文
章を形態素解析部101で解析して、形態素列を生成す
る。
【0013】<第2の実施の形態>上述した第1の実施
の形態の形態素解析装置は、ユーザ辞書103および接
続表104を一つであるとして説明した。しかし、これ
らは分野別等の所定の観点から複数存在することもあ
る。このために、第2の実施の形態の形態素解析装置
は、ユーザ辞書(111)および接続表書換データ(1
12)から構成されるセット110を複数組と、この複
数組のセットから1組のユーザ辞書103と接続表書換
データ106を生成するマージ処理部107とを第1の
実施の形態の形態素解析装置に加える(図7参照)。マ
ージ処理部107は、ユーザに指定された複数のセット
110のユーザ辞書111および接続表書換データ11
2の接続情報に対し、それぞれの接続表書換データ11
2およびユーザ辞書111間の接続属性に重なりが生じ
ないように、ユニークに接続属性を振り直して結合し、
1つの接続表書換データ104およびユーザ辞書103
を生成する。このユニークな接続属性は、ユーザの指定
したセット110の順番に応じて非プリセットの接続属
性名の先頭にセットを示す識別名を付与して新たな接続
属性名を生成する。例えば、第1のセットのユーザ辞書
111を図3、接続表書換データ112を図4に示した
ものとし、第2のセットのユーザ辞書111を図8、接
続表書換データ112を図9に示したものとした場合、
マージ処理部107によってそれぞれ図10に示すよう
なユーザ辞書103、図11に示すような接続表書換デ
ータ106を生成する。図10において、セット1およ
びセット2のユーザ辞書111には、同じユーザ定義の
接続属性「ユーザ定義1」および「ユーザ定義2」があ
るので、ユニークな名称とするために、それぞれセット
1とセット2の識別名として「S1」と「S2」をつけ
て「S1:ユーザ定義1」や「S2:ユーザ定義1」と
する。図11では、この命名規則に従って接続表書換デ
ータ112も書き換えている。
【0014】<第3の実施の形態>本発明は上述した実
施の形態のみに限定されたものではない。上述した実施
の形態に示した各機能を、コンピュータに実行させるこ
とのできるプログラムとして、例えば、磁気媒体(例え
ば、磁気テープ、フレキシブルディスク、ハードディス
ク等)、光媒体(例えば、DVD、MO、MD、CD−
R等)、半導体メモリ(例えば、ROM、ICメモリカ
ード等)などの記録媒体に書き込んで各種装置に適用し
たり、通信媒体により伝送して各種装置に適用すること
も可能である。本発明を実現するコンピュータは、記録
媒体に記録されたプログラムを読み込み、このプログラ
ムによって動作が制御されることにより、上述した処理
を実行する。また、インターネットなどのネットワーク
に接続したサーバから上記プログラムをダウンロード
し、コンピュータにインストールするようにしてもよ
い。この場合に、送信側のサーバでプログラムを記憶し
ている記憶装置も、本発明の記録媒体である。なお、プ
ログラムの指示に基づき、オペレーティングシステム等
が実際の処理の一部または全部を行い、その処理によっ
て上述した実施の形態の機能が実現される場合も本発明
に含まれる。
【0015】
【発明の効果】以上説明したように、本発明によれば、
次のような効果を達成できる。 (1)解析性能が保証されるため、書き換えられては困る
通常の接続属性間の接続を隠蔽したまま、ユーザが接続
表を修正できる。 (2)従来の形態素解析装置では、実装に用いられる品詞
数が100以上にもなるが、本発明では接続属性大分類
としてまとめられるのでユーザの接続情報記述の負担を
大幅に軽減することができる。 (3)元となる品詞の指定およびその品詞との差分情報1
つという、 最低2つの情報で新しい接続情報が記述可
能となり、ユーザの接続情報記述の負担を大幅に軽減す
ることができる。 (4)ユーザの作成した接続情報をネットワーク等を使っ
てやりとりされるような環境を想定した場合、他人の作
成した接続情報をそれぞれ干渉しあわないような形で利
用することができるので、他人の作成した接続情報の有
効活用がはかられる。 (5)暗号化(バイナリ化)されたデータとは異なり、接続
表書換データが文字情報のような専用ツールを必要とせ
ずに接続表書換データを編集できるので、ユーザによる
編集の機会をひろげることができる。 (6)"http://www...."のような可変の文字列に対しても
ユーザ定義による接続属性を記述することができるの
で、本発明の利用の幅が拡大される。
【図面の簡単な説明】
【図1】第1の実施の形態の形態素解析装置の構成を示
すブロック図である。
【図2】形態素辞書のデータ構造を示す図である。
【図3】ユーザ辞書のデータ構造を示す図である。
【図4】接続表書換データのデータ構造を示す図であ
る。
【図5】接続属性の大分類定義を説明する図である。
【図6】接続表書換部の動作を説明するための例を示す
図である。
【図7】第2の実施の形態の形態素解析装置の構成の
内、追加された部分の構成を示すブロック図である。
【図8】第2のセットのユーザ辞書の例を示す図であ
る。
【図9】第2のセットの接続表書換データの例を示す図
である。
【図10】マージされたユーザ辞書の例を示す図であ
る。
【図11】マージされた接続表書換データの例を示す図
である。
【符号の説明】
101 形態素解析部 102 形態素辞書 103 ユーザ辞書 104 接続表 105 接続表書換部 106 接続表書換データ 107 マージ処理部 110 セット(ユーザ辞書、書換データ)

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 少なくとも形態素の表記および接続属性
    情報を格納した形態素辞書と、隣り合う形態素間の接続
    情報をペナルティあるいはスコアあるいは接続の可否と
    して保持した接続表とを有して、入力文字列を構成する
    形態素の列に分割する形態素解析装置において、 形態素に対する通常既定された接続属性および/または
    ユーザの定義する接続属性間の接続情報とからなる接続
    表書換データと、ユーザの指定する形態素に対して、通
    常既定された接続属性またはユーザの定義する接続属性
    を保持するユーザ辞書と、前記接続表書換データを用い
    て、前記接続表を修正更新する接続表書換部とを有し、 前記接続表は、通常既定された接続属性とユーザの定義
    した接続情報との組み合わせの接続属性に対する接続情
    報からなる可変部分を持ち、ユーザ定義語に対する接続
    属性として非プリセットの接続属性が使用可能であるよ
    うにしたことを特徴とする形態素解析装置。
  2. 【請求項2】 請求項1に記載の形態素解析装置におい
    て、前記接続表書換データは、接続属性を簡易化した接
    続属性大分類に基づいても記述可能であることを特徴と
    する形態素解析装置。
  3. 【請求項3】 請求項1または2に記載の形態素解析装
    置において、前記接続表書換データは、ある特定の品詞
    の接続属性を継承するように記述可能であることを特徴
    とする形態素解析装置。
  4. 【請求項4】 請求項1乃至3のいずれか1に記載の形
    態素解析装置において、前記接続表書換データおよび前
    記ユーザ辞書は、文字情報によって作成されることを特
    徴とする形態素解析装置。
  5. 【請求項5】 請求項4に記載の形態素解析装置におい
    て、前記ユーザ辞書は、見出しの形態素を正規表現によ
    って作成できることを特徴とする形態素解析装置。
  6. 【請求項6】 請求項1乃至5のいずれか1に記載の形
    態素解析装置において、前記ユーザ辞書と前記接続表書
    換データを1組とした複数組のユーザ辞書と接続表書換
    データと、前記複数組の接続表書換データおよびユーザ
    辞書の内ユーザに指定された組に記述された接続属性に
    重なりが生じないようにユニークに振り直して、1つの
    接続表書換データおよびユーザ辞書を生成するマージ処
    理部とを有することを特徴とする形態素解析装置。
  7. 【請求項7】 少なくとも形態素の表記および接続属性
    情報を格納した形態素辞書と、隣り合う形態素間の接続
    情報をペナルティあるいはスコアあるいは接続の可否と
    して保持した接続表とを有して、入力文字列を構成する
    形態素の列に分割する形態素解析方法において、 通常既定された接続属性とユーザの定義した接続情報と
    の組み合わせの接続属性に対する接続情報からなる前記
    接続表の可変部分を、形態素に対する通常既定された接
    続属性および/またはユーザの定義する接続属性間の接
    続情報とからなる接続表書換データを用いて修正更新
    し、ユーザの指定する形態素に対して、ユーザ辞書に通
    常既定された接続属性またはユーザの定義する接続属性
    を保持するようにして、ユーザ定義語に対する接続属性
    として非プリセットの接続属性が使用可能であるように
    したことを特徴とする形態素解析方法。
  8. 【請求項8】 請求項7に記載の形態素解析方法におい
    て、前記接続表書換データは、接続属性を簡易化した接
    続属性大分類に基づいても記述可能であることを特徴と
    する形態素解析方法。
  9. 【請求項9】 請求項7または8に記載の形態素解析方
    法において、前記接続表書換データは、ある特定の品詞
    の接続属性を継承するように記述可能であることを特徴
    とする形態素解析方法。
  10. 【請求項10】 請求項7乃至9のいずれか1に記載の
    形態素解析方法において、前記接続表書換データおよび
    前記ユーザ辞書は、文字情報によって作成されることを
    特徴とする形態素解析方法。
  11. 【請求項11】 請求項10に記載の形態素解析方法に
    おいて、前記ユーザ辞書は、見出しの形態素を正規表現
    によって作成できることを特徴とする形態素解析方法。
  12. 【請求項12】 請求項7乃至11のいずれか1に記載
    の形態素解析方法において、前記ユーザ辞書と前記接続
    表書換データを1組とした複数組のユーザ辞書と接続表
    書換データを有し、前記複数組の接続表書換データおよ
    びユーザ辞書の内ユーザに指定された組に記述された接
    続属性に重なりが生じないようにユニークに振り直し
    て、1つの接続表書換データおよびユーザ辞書を生成す
    ることを特徴とする形態素解析方法。
  13. 【請求項13】 少なくとも形態素の表記および接続属
    性情報を格納した形態素辞書と、隣り合う形態素間の接
    続情報をペナルティあるいはスコアあるいは接続の可否
    として保持した接続表とを有して、入力文字列を構成す
    る形態素の列に分割させるための形態素解析プログラム
    であって、前記コンピュータを、 通常既定された接続属性とユーザの定義した接続情報と
    の組み合わせの接続属性に対する接続情報からなる前記
    接続表の可変部分を、形態素に対する通常既定された接
    続属性および/またはユーザの定義する接続属性間の接
    続情報とからなる接続表書換データを用いて修正更新
    し、ユーザの指定する形態素に対して、ユーザ辞書に通
    常既定された接続属性またはユーザの定義する接続属性
    を保持するようにして、ユーザ定義語に対する接続属性
    として非プリセットの接続属性が使用可能であるように
    機能させることを特徴とするプログラム。
  14. 【請求項14】 請求項13に記載のプログラムにおい
    て、前記ユーザ辞書と前記接続表書換データを1組とし
    た複数組のユーザ辞書と接続表書換データを有し、前記
    複数組の接続表書換データおよびユーザ辞書の内ユーザ
    に指定された組に記述された接続属性に重なりが生じな
    いようにユニークに振り直して、1つの接続表書換デー
    タおよびユーザ辞書を生成することを特徴とするプログ
    ラム。
  15. 【請求項15】 請求項13または14に記載のプログ
    ラムを記憶したコンピュータに読み取り可能な記録媒
    体。
JP2001155867A 2001-05-24 2001-05-24 形態素解析装置、形態素解析方法、プログラムおよび記録媒体 Pending JP2002351871A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001155867A JP2002351871A (ja) 2001-05-24 2001-05-24 形態素解析装置、形態素解析方法、プログラムおよび記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001155867A JP2002351871A (ja) 2001-05-24 2001-05-24 形態素解析装置、形態素解析方法、プログラムおよび記録媒体

Publications (1)

Publication Number Publication Date
JP2002351871A true JP2002351871A (ja) 2002-12-06

Family

ID=18999973

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001155867A Pending JP2002351871A (ja) 2001-05-24 2001-05-24 形態素解析装置、形態素解析方法、プログラムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP2002351871A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103594084A (zh) * 2013-10-23 2014-02-19 江苏大学 联合惩罚稀疏表示字典学习的语音情感识别方法及系统
JP2014092838A (ja) * 2012-11-01 2014-05-19 Nec Corp 形態素解析装置、形態素解析プログラム、及び、形態素解析方法
KR20190140668A (ko) * 2018-06-12 2019-12-20 (주)아이브릭스 사용자 정의 형태소를 이용한 한국어 형태소 분석 장치 및 방법

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014092838A (ja) * 2012-11-01 2014-05-19 Nec Corp 形態素解析装置、形態素解析プログラム、及び、形態素解析方法
CN103594084A (zh) * 2013-10-23 2014-02-19 江苏大学 联合惩罚稀疏表示字典学习的语音情感识别方法及系统
CN103594084B (zh) * 2013-10-23 2016-05-25 江苏大学 联合惩罚稀疏表示字典学习的语音情感识别方法及系统
KR20190140668A (ko) * 2018-06-12 2019-12-20 (주)아이브릭스 사용자 정의 형태소를 이용한 한국어 형태소 분석 장치 및 방법
KR102152086B1 (ko) * 2018-06-12 2020-09-04 (주)아이브릭스 사용자 정의 형태소를 이용한 한국어 형태소 분석 장치 및 방법

Similar Documents

Publication Publication Date Title
JP4676181B2 (ja) タグ付きデータを有する完全形式レキシコンおよびタグ付きデータを構成し使用する方法
US7630892B2 (en) Method and apparatus for transducer-based text normalization and inverse text normalization
JP2003223437A (ja) 正解語の候補の表示方法、スペルチェック方法、コンピュータ装置、プログラム
JP2001101185A (ja) 辞書の自動切り換えが可能な機械翻訳方法および装置並びにそのような機械翻訳方法を実行するためのプログラムを記憶したプログラム記憶媒体
CN112446213B (zh) 一种文本语料扩充方法
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
JP4940606B2 (ja) 翻訳システム、翻訳装置、翻訳方法及びプログラム
US8706477B1 (en) Systems and methods for lexical correspondence linguistic knowledge base creation comprising dependency trees with procedural nodes denoting execute code
JP2002351871A (ja) 形態素解析装置、形態素解析方法、プログラムおよび記録媒体
JP4361299B2 (ja) 評価表現抽出装置、プログラム、及び記憶媒体
Arwidarasti et al. Converting an Indonesian constituency treebank to the Penn treebank format
JP2008225566A (ja) 関係情報抽出装置及びその方法
CN108766059A (zh) 一种云服务英语教学设备及教学方法
US20030093399A1 (en) System and method for source-driven form-independent dynamic content resolution
JP3136973B2 (ja) 言語解析システムおよび方法
KR100322743B1 (ko) 음성합성기의 문서해석기에서 사용되는 형태소 해석방법 및 그 장치
JPH07325826A (ja) 日本語処理システム
JP2010079705A (ja) 構文解析装置及びプログラム
JPH09212511A (ja) 自然言語処理装置
JP3892227B2 (ja) 機械翻訳システム
JP6476638B2 (ja) 固有用語候補抽出装置、固有用語候補抽出方法、及び固有用語候補抽出プログラム
JPH05233689A (ja) 文書自動要約方法
JP2001337945A (ja) 自動編集装置及び方法並びにこれに利用される記憶媒体
JPH06274530A (ja) 構文解析結果表示方式
JP2006139463A (ja) 形態素解析装置、形態素解析方法及び形態素解析プログラム