JP2016177369A - 辞書更新装置、辞書更新方法、辞書更新プログラムおよび形態素解析装置 - Google Patents
辞書更新装置、辞書更新方法、辞書更新プログラムおよび形態素解析装置 Download PDFInfo
- Publication number
- JP2016177369A JP2016177369A JP2015055271A JP2015055271A JP2016177369A JP 2016177369 A JP2016177369 A JP 2016177369A JP 2015055271 A JP2015055271 A JP 2015055271A JP 2015055271 A JP2015055271 A JP 2015055271A JP 2016177369 A JP2016177369 A JP 2016177369A
- Authority
- JP
- Japan
- Prior art keywords
- analysis
- morpheme
- domain name
- character string
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】形態素解析の精度を向上させる。【解決手段】実施形態によれば、辞書更新装置は、格納部と、形態素解析部と、判定部と、更新部とを含む。格納部は、テキストと、当該テキストの属するドメイン名とを対応付けて格納する。形態素解析部は、テキストを形態素解析することによって解析結果を生成する。判定部は、解析結果が、入力された単語文字列を含むように形態素単位の単語に分割されているか否かを判定し、解析結果が単語文字列を含むように形態素単位の単語に分割されている場合に、形態素解析における単語文字列の影響点を計算する。更新部は、前記影響点が基準値を超える場合に、前記単語文字列と前記ドメイン名とを対応付ける。【選択図】図1
Description
実施形態は、辞書更新技術に関する。
日本語の形態素解析は、英語などのように単語同士が分かち書きされていないため、正確に単語を分割することが困難である。例えば、「のいちご(名詞)」などの単語は、綴りが全て平仮名であり、「の(助詞)」を含むように解釈できるため、形態素解析によって複数の解析候補を得る可能性がある。従って、複数の解析候補から正しい解析結果を選択することが必要となる。
従来、形態素解析において特定の単語に対する採否を一律に決定する方法が知られている。例えば、「のいちご」という単語に不採用の採否判定情報を付加することによって、複数の解析候補に対して「のいちご」という単語を不採用とする。しかしながら、全てのテキストに対して不採用とするため、必ずしも正しい選択結果を得られない恐れがある。
実施形態は、形態素解析の精度を向上させることを目的とする。
実施形態によれば、辞書更新装置は、格納部と、形態素解析部と、判定部と、更新部とを含む。格納部は、テキストと、当該テキストの属するドメイン名とを対応付けて格納する。形態素解析部は、テキストを形態素解析することによって解析結果を生成する。判定部は、解析結果が、入力された単語文字列を含むように形態素単位の単語に分割されているか否かを判定し、解析結果が単語文字列を含むように形態素単位の単語に分割されている場合に、形態素解析における単語文字列の影響点を計算する。更新部は、前記影響点が基準値を超える場合に、前記単語文字列と前記ドメイン名とを対応付ける。
以下、図面を参照しながら実施形態の説明が述べられる。尚、以降、解説済みの要素と同一または類似の要素には同一または類似の符号が付され、重複する説明は基本的に省略される。
(第1の実施形態)
図1に例示されるように、第1の実施形態に係る辞書更新装置100は、入力部101と、形態素解析部102と、判定部103と、更新部104と、形態素解析辞書105と、格納部106と、出力部107とを備える。
図1に例示されるように、第1の実施形態に係る辞書更新装置100は、入力部101と、形態素解析部102と、判定部103と、更新部104と、形態素解析辞書105と、格納部106と、出力部107とを備える。
入力部101は、ユーザが単語文字列をテキスト形式で入力する。入力部101として、例えばキーボード、タブレットおよび光学式文字読み取り装置(OCR)などの既存の入力デバイスが用いられてもよいし、あるいは複数の単語文字列を格納した、メディアおよびHDDなどの既存の記憶媒体が用いられてもよい。入力部101は、単語文字列を形態素解析部102および判定部103へと出力する。
格納部106は、日本語テキストと、日本語テキストの属するドメイン名とを対応付けて格納する。格納部106は、日本語テキストに複数のドメイン名を対応付けて格納してもよい。ドメイン名は、例えば「児童書」「ビジネス書」「料理本」「中国古典」「明治文学」「俳句」などの情報を表す。格納部106は、例えば、図2に示されるように、「温室のいちごは甘かった」(日本語テキスト)および「児童書」(ドメイン名)を対応付けて格納する。格納部106は、日本語テキスト(以降、特に記載が無い限り日本語テキストにドメイン名が対応付けられているものとする)を形態素解析部102へと出力する。尚、本実施形態では、日本語が入力されることを想定するが、形態素解析の際に複数の解析候補が得られるような構成を有する言語であれば他の言語でもよい。
形態素解析部102は、入力部101から単語文字列が入力される。形態素解析部102は、さらに、形態素解析辞書105から形態素解析処理に必要な情報が入力され、格納部106から日本語テキストが入力される。形態素解析部102は、日本語テキストを形態素解析することによって単語ネットワークを生成し、複数の解析候補を得る。形態素解析部102は、さらに、複数の解析候補のそれぞれに評価点を付け、評価点が最も高い解析候補を解析結果とする。
具体的には、形態素解析部102は、形態素解析に基づいて図3に例示されるような単語ネットワークを生成し、複数の解析候補を得る。単語ネットワークは、複数の分割候補を持つ文字列(ここでは「のいちご」)を分岐させて、テキストを網の目状に表したものである。例えば、「温室のいちごは甘かった」という日本語テキストの形態素解析を行った場合に、「のいちご」の部分において「の(助詞)/いちご(名詞)」および「のいちご(名詞)」という複数の分割候補を持つ文字列が存在し、前後の形態素の文字列を繋げた単語ネットワークを作成する。形態素解析部102は、単語ネットワークに基づいて、「温室(名詞)/のいちご(名詞)/は(助詞)/甘かっ(形容詞連用形)/た(助動詞終止形)」(第1解析候補)および「温室(名詞)/の(助詞)/いちご(名詞)/は(助詞)/甘かっ(形容詞連用形)/た(助動詞終止形)」(第2解析候補)のような、形態素単位の単語に分割された2つの解析候補を生成する。形態素解析部102は、第1解析候補に100点、第2解析候補に50点の評価点を付けた場合に、評価点が高い第1解析候補を解析結果として出力する。評価点は、解析候補に含まれる形態素単位の自立語(助詞や助動詞などの付属語を除いた単語)の数に応じて付けられるが、品詞の並び順が日本語として適切か否かを判定して付けられてもよい。形態素解析の方法は、以上の例に限らず、種々の技法を利用してもよい。形態素解析部102は、解析結果を判定部103へと出力する。
判定部103は、入力部101から単語文字列が入力され、形態素解析部102から解析結果と、解析結果の日本語テキストが属するドメイン名とが入力される。判定部103は、解析結果が単語文字列を含むように形態素単位の単語に分割されているか否かを判定する。判定部103は、解析結果が単語文字列を含むように形態素単位の単語に分割されている場合に、単語文字列が形態素解析処理に影響を及ぼす割合を示す影響点を計算する。影響点は、形態素解析処理に悪い影響を及ぼす悪影響点と、形態素解析処理に良い影響を及ぼす好影響点とがある。
例えば、判定部103は、形態素解析しにくい性質の条件に基づいて、単語文字列の悪影響点を計算する(尚、好影響点を計算する例については後述される)。形態素解析しにくい性質の条件は、「綴りが全て平仮名である」「単語文字列が『の(助詞)』を含むように解釈できる」などが挙げられる。あるいは、判定部103は、図4のような判定画面に基づいて、ユーザに正否を選択させることで悪影響点を付与してもよい。換言すれば、判定部103は、日本語テキストの文脈として用いられることが望ましくない解析候補の形態素(単語文字列)の悪影響点を計算する。判定部103は、単語文字列と、単語文字列の影響点と、解析結果の日本語テキストが属するドメイン名とを更新部104へと出力する。判定部103は、さらに、解析結果を出力部107へと出力する。
更新部104は、判定部103から単語文字列、影響点およびドメイン名が入力される。更新部104は、影響点が基準値を超える場合に、単語文字列に影響点が基準値を超えた解析結果の日本語テキストが属するドメイン名を対応付ける。なお、以下では、単語文字列にドメインを対応付けることを、「単語文字列にドメイン名を付与する」ともいう。
形態素解析辞書105は、更新部104から単語文字列およびドメイン名が入力される。形態素解析辞書105は、形態素解析に必要な情報である見出し、品詞および活用などをそれぞれ対応付けて格納する。形態素解析辞書105は、さらに、見出しにドメイン名を対応付けて格納することができる。形態素解析辞書105は、入力された単語文字列に一致する見出しにドメイン名を対応付けて格納する。形態素解析辞書105は、見出しに複数のドメイン名を対応付けて格納してもよい。形態素解析辞書105は、形態素解析に必要な情報を形態素解析部102へと出力する。
出力部107は、判定部103から入力された解析結果を外部に出力する。具体的には、出力部107は、CRTディスプレイ装置および液晶表示装置などの表示デバイスを用いて解析結果を表示してもよい。出力部107は、さらに、入力部101から単語文字列を、判定部103から判定画面を表示デバイスに表示してもよい。
辞書更新装置100は、図5Aに例示されるように動作する。ユーザからの入力を受けることで図5Aの処理は開始する。
ステップS501において、入力部101は、単語文字列をテキスト形式で入力する。ステップS501の後に、形態素解析部102は、格納部106に格納された複数の日本語テキストに、初期値をゼロとする識別番号N(N=0,1,2,・・・)を付ける(ステップS502)。
ステップS503において、形態素解析部102は、日本語テキストを形態素解析することによって単語ネットワークを作成する。ステップS504において、形態素解析部102は、単語ネットワークに含まれる複数の解析候補にそれぞれ評価点をつけ、評価点が最も高い解析候補を解析結果して選択する。ステップS504の後に、ドメイン名付与処理(ステップS505)が行われる。
ドメイン名付与処理(ステップS205)の詳細が図5Bに例示される。ドメイン名付与処理が開始すると、判定部103は、解析結果に含まれる形態素単位の単語に対し、初期値をゼロとする識別番号k(k=0,1,2,・・・)を付ける(ステップA501)。
ステップA502では、判定部103は、k番目の単語が単語文字列と一致する(即ち、解析結果が単語文字列を含むように形態素単位の単語に分割されている)か否かを判定する。単語文字列と一致する場合には処理はステップA503へと進み、そうでなければ処理はステップA505へと進む。
ステップA503では、判定部103は、k番目の単語が解析に影響を与えているか否かを判定する。解析に影響を与えている場合には処理はステップA504へと進み、そうでなければ処理はステップA505へと進む。
ステップA504において、判定部103は、k番目の単語の影響点(悪影響点または好影響点)を計算し、k番目の単語に対応付ける。
ステップA505において、判定部103は、識別番号kに1をインクリメントする。
ステップA506では、判定部103は、k番目に形態素単位の単語が存在するか否かを判定する。形態素単位の単語が存在する場合には処理はステップA502へと戻り、そうでなければ処理はステップA507へと進む。
ステップA507では、更新部104は、k番目の単語の影響点(悪影響点または好影響点)が基準値を超えているか否かを判定する。基準値を超えている場合には処理はステップA508へと進み、そうでなければ処理は終了し、処理は図5AのステップS506へと進む。
ステップA508において、更新部104は、k番目の単語に解析結果の日本語テキストが属するドメイン名を対応付ける。さらに、形態素解析辞書105は、k番目の単語に一致する見出しにドメイン名を対応付けて格納する。
ステップA508の後に、図5Bのドメイン名付与処理は終了し、処理は図5AのステップS506へと進む。
ステップS506において、更新部104は、識別番号Nに1をインクリメントする。
ステップS507では、形態素解析部102は、N番目に日本語テキストが存在するか否かを判定する。日本語テキストが存在する場合には処理はステップS503へと戻り、そうでなければ処理は終了する。
尚、辞書更新装置100は、単語文字列が含まれる日本語テキストを予め抽出して一連の動作を行ってもよいし、格納部106に含まれる日本語テキストのドメイン名を指定して一連の動作を行ってもよい。
ここで、図5Bのドメイン名付与処理の動作の具体例を説明する。ドメイン名付与処理の前段において、単語文字列として「のいちご」が入力され、解析結果として「温室(名詞)/のいちご(名詞)/は(助詞)/甘かっ(形容詞連用形)/た(助動詞終止形)」が選択されているとする。さらに、判定部103は、悪影響点を計算するものとする。
判定部103は、解析結果の形態素単位の単語に識別番号kを付ける。識別番号kは、「温室(名詞)」にk=0、「のいちご(名詞)」にk=1と、以下順番に付けられる。判定部103は、k=1の「のいちご(名詞)」が単語文字列と一致しているので、「のいちご」の悪影響点を計算する。悪影響点は、例えば、「綴りが全て平仮名」であるから40点、「の(助詞)/いちご(名詞)」に分割可能であるから60点とし、合計100点となる。
更新部104は、k番目の単語の悪影響点が任意の基準値を超えているか否かを判定する。例えば、基準値が80点である場合、単語文字列の悪影響点が基準値を越えるので、更新部104は、単語文字列「のいちご」にドメイン名「児童書」を対応付ける。さらに、形態素解析辞書105は、単語文字列「のいちご」に一致する見出しにドメイン名「児童書」を対応付けて格納する。
以上は、悪影響点の例を示したが、判定部103は、形態素解析しやすい性質の条件に基づいて、単語文字列の好影響点を計算してもよい。形態素解析しやすい性質の条件は、例えば「特定のジャンル(ドメイン名およびドメイン名のグループなどに相当)において、単語文字列の文字数が多いもの」などが挙げられる。換言すれば、判定部103は、日本語テキストの文脈として用いられることが望ましい解析候補の形態素(単語文字列)の好影響点を計算する。好影響点を付加する例として、入力文字列「縦にする(ほしいままにする)」を入力した場合に、図2に示される「虚名を縦にすること今に数十年なり」(ドメイン名は「中国古典」)が形態素解析される時の動作を以下に記述する。
形態素解析部102は、形態素解析に基づいて図6に例示されるような単語ネットワークを生成し、複数の解析候補を得る。形態素解析部102は、単語ネットワークに基づいて、「虚名(名詞)/を(助詞)/縦にする(動詞:読み「ほしいままにする」)/こと(名詞)/・・・」(第1解析候補)および「虚名(名詞)/を(助詞)/縦(名詞:読み「たて」)/に(助詞)/する(動詞)/こと(名詞)/・・・」(第2解析候補)のような、形態素単位の単語に分割された2つの解析候補を生成する。形態素解析部102は、第1解析候補に100点、第2解析候補に50点の評価点を付けた場合に、評価点が高い第1解析候補を解析結果として出力する。
判定部103は、「縦にする(動詞)」が形態素解析辞書105の単語文字列と一致しているので、「縦にする」の好影響点を計算する。好影響点は、例えば、「(動詞として)単語文字列の文字数が多い」ことにより80点を付ける。更新部104は、基準値が50点である場合に、単語文字列の好影響点が基準値を超えるので、単語文字列「縦にする」にドメイン名「中国古典」を対応付ける。さらに、形態素解析辞書105は、単語文字列「縦にする」に一致する見出しにドメイン名「中国古典」を対応付けて格納する。
図7Aおよび図7Bに例示される形態素解析辞書105は、見出しとなる単語文字列にドメイン名(悪影響ドメイン名および好影響ドメイン名)が対応付けられて格納されている。この形態素解析辞書105のドメイン名を含めた情報で形態素解析することによって、形態素解析の精度を向上させることができる。例えば、ドメイン名を指定して日本語テキストを形態素解析する場合に、日本語テキストが属するドメイン名と形態素解析辞書105の単語文字列に対応付けられたドメイン名とに基づいて解析をする。ドメイン名に基づいた形態素解析は、評価点にドメイン名の影響(悪影響または好影響)を加味して、解析候補から解析結果を出力する。即ち、より多くの情報に基づいて形態素解析を行うことができる。形態素解析辞書105のドメイン名を含めた情報で形態素解析を行う実施例は、第3の実施形態で詳説する。
以上説明したように、第1の実施形態に係る辞書更新装置は、入力された単語文字列が特定の日本語テキストの形態素解析に影響(悪影響または好影響)を与えると判定した場合に、日本語テキストが属するドメイン名を形態素解析辞書の該当する単語文字列に対応付ける。そして、この形態素解析辞書を用いることによって、同一のドメイン名を持つ日本語テキストにおいて、より多くの情報に基づいて形態素解析を行うことができる。故に、この辞書更新装置によれば、形態素解析の精度を向上させることができる。
(第2の実施形態)
第2の実施形態に係る辞書更新装置は、図1の形態素解析辞書105に格納されるドメイン名が付与される毎に、付与された回数も格納する点で第1の実施形態に係る辞書更新装置とは異なる。
第2の実施形態に係る辞書更新装置は、図1の形態素解析辞書105に格納されるドメイン名が付与される毎に、付与された回数も格納する点で第1の実施形態に係る辞書更新装置とは異なる。
具体的には、形態素解析辞書105は、更新部104から単語文字列およびドメイン名が入力される。形態素解析辞書105は、入力された単語文字列に対応する見出しにドメイン名が既に付与されていた場合に、付与された回数(更新回数)も対応付けて格納する。
図7Cに例示される形態素解析辞書105には、単語文字列にドメイン名(悪影響ドメイン名)および更新回数が対応付けられて格納されている。形態素解析辞書105のドメイン名および更新回数を含めた情報で形態素解析することによって、形態素解析の精度を向上させることができる。形態素解析辞書105のドメイン名および更新回数を含めた情報で形態素解析を行う実施例は、第4の実施形態で詳説する。
以上説明したように、第2の実施形態に係る辞書更新装置は、形態素解析辞書に格納されたドメイン名に更新回数を対応付ける。そして、この形態素解析辞書を用いることによって、同一のドメイン名を持つ日本語テキストにおいて、さらに多くの情報に基づいて形態素解析を行うことができる。故に、この辞書更新装置によれば、形態素解析の精度を向上させることができる。
(第3の実施形態)
図8に例示されるように、第3の実施形態に係る形態素解析装置800は、入力部101と、形態素解析部102と、判定部103と、更新部104と、形態素解析辞書105と、格納部106と、出力部107と、第2形態素解析部801とを備える。形態素解析装置800は、図1の辞書更新装置100に第2形態素解析部801が追加される。形態素解析装置800は、ドメイン名を指定した日本語テキストを入力し、ドメイン名を含めた形態素解析に必要な情報で形態素解析する。
図8に例示されるように、第3の実施形態に係る形態素解析装置800は、入力部101と、形態素解析部102と、判定部103と、更新部104と、形態素解析辞書105と、格納部106と、出力部107と、第2形態素解析部801とを備える。形態素解析装置800は、図1の辞書更新装置100に第2形態素解析部801が追加される。形態素解析装置800は、ドメイン名を指定した日本語テキストを入力し、ドメイン名を含めた形態素解析に必要な情報で形態素解析する。
図8の入力部101は、第1の実施形態に係る入力部101の処理に加え、第2形態素解析部801へと日本語テキストおよび日本語テキストの属するドメイン名を出力する点で図1の入力部101とは異なる。図8の形態素解析辞書105は、第1の実施形態に係る形態素解析辞書105の処理に加え、第2形態素解析部801へと形態素解析処理に必要な情報(これは、ドメイン名を含む)を出力する点で図1の形態素解析辞書105とは異なる。出力部107は、第2形態素解析部801の結果も表示する点で図1の出力部107とは異なる。
入力部101は、日本語テキストおよび日本語テキストの属するドメイン名を入力する。入力部101は、日本語テキストおよび日本語テキストの属するドメイン名を第2形態素解析部801へと出力する。
形態素解析辞書105は、形態素解析に必要な情報である見出し、品詞、活用およびドメイン名などをそれぞれ対応付けて格納する。形態素解析辞書105は、形態素解析に必要な情報を第2形態素解析部801へと出力する。
第2形態素解析部801は、入力部101から日本語テキストおよび日本語テキストの属するドメイン名が入力される。第2形態素解析部801は、さらに、形態素解析辞書105から形態素解析に必要な情報が入力される。第2形態素解析部801は、日本語テキストを形態素解析することによって単語ネットワークを生成し、複数の解析候補を得る。
具体的には、第2形態素解析部801は、「くだもののいちごはおいしいね」という日本語テキストから、「くだもの(名詞)」「のいちご(名詞)」「の(助詞)」「いちご(名詞)」「は(助詞)」「おいしい(形容詞終止形)」「ね(助詞)」などのように、形態素単位の単語に分割する。第2形態素解析部801は、分割された形態素単位の単語から単語ネットワークを生成する。第2形態素解析部801は、単語ネットワークに基づいて、「くだもの(名詞)/のいちご(名詞)/は(助詞)/おいしい(形容動詞終止形)/ね(助詞)」(第1解析候補)および「くだもの(名詞)/の(助詞)/いちご(名詞)/は(助詞)/おいしい(形容動詞終止形)/ね(助詞)」(第2解析候補)のような、形態素単位の単語に分割された2つの解析候補を生成する。
第2形態素解析部801は、さらに、複数の解析候補のそれぞれに評価点を付け、評価点が最も高い解析候補を解析結果して選択する。評価点は、通常の形態素解析を利用する(例えば、形態素解析部102のような)付け方に加え、形態素解析辞書105の見出しに対応付けられたドメイン名も利用して付けられる。具体的には、第2形態素解析部801は、通常の形態素解析を利用して第1解析候補に100点、第2解析候補に60点の評価点を付ける。そして、第2形態素解析部801は、第1解析候補の形態素に、形態素解析辞書105の見出しに対応付けられた悪影響ドメイン名が存在した場合に、第1解析候補の評価点から60点を減点することによって、評価点が高い第2解析候補を解析結果として出力する。尚、ここでは評価点を減点する例を挙げたが、形態素解析辞書105の見出しに対応付けられた好影響ドメイン名が存在した場合に、評価点を加点してもよい。第2形態素解析部801は、解析結果を出力部107へと出力する。
出力部107は、第2形態素解析部801から入力された解析結果を外部に出力する。
形態素解析装置800は、図9Aに例示されるように動作する。ユーザからの入力を受けることで図9Aの処理は開始する。
ステップS901において、入力部101は、日本語テキストおよび日本語テキストに属するドメイン名を入力する。ステップS901の後に、第2形態素解析部801は、入力された日本語テキストを形態素解析することによって単語ネットワークを作成し、複数の解析候補を生成する(ステップS902)。このとき、第2形態素解析部801は、解析候補の評価点を計算する。さらに、第2形態素解析部801は、複数の解析候補に、初期値を0とする識別番号i(i=0,1,2,・・・)を付ける(ステップS903)。ステップS903の後に、評価点再計算処理(ステップS904)が行われる。
評価点再計算処理(ステップS904)の詳細が図9Bに例示される。評価点再計算処理が開始すると、第2形態素解析部801は、解析候補に含まれる形態素単位の単語に対し、初期値を0とする識別番号k(k=0,1,2,・・・)をつける(ステップA901)。
ステップA902では、第2形態素解析部801は、k番目の単語(形態素)のドメイン名と入力された日本語テキストの属するドメイン名とが一致するか否かを判定する。ドメイン名が一致する場合には処理はステップA903へと進み、そうでなければ処理はステップA904へと進む。
ステップA903において、第2形態素解析部801は、解析候補の評価点を再計算(加算または減算)する。
ステップA904において、第2形態素解析部801は、識別番号kに1をインクリメントする。
ステップA905では、第2形態素解析部801は、k番目に形態素単位の単語が存在するか否かを判定する。形態素単位の単語が存在する場合には処理はステップA902へと戻り、そうでなければ処理は終了し、処理は図9AのステップS905へと進む。
ステップS905において、第2形態素解析部801は、識別番号iに1をインクリメントする。
ステップS906において、第2形態素解析部801は、i番目に解析候補が存在するか否かを判定する。解析候補が存在する場合には処理はステップS904へと戻り、そうでなければ処理はステップS907へと進む。
ステップS907では、第2形態素解析部801は、評価点が最も高い解析候補を解析結果として選択し、処理を終了する。
ここで、図9Bの評価点再計算処理の動作の具体例を説明する。予め図7Aに例示する形態素解析辞書105が用意され、「評価点再計算処理の前段において、日本語テキストおよび日本語テキストが属するドメイン名としてそれぞれ「くだもののいちごはおいしいね」「児童書」が入力され、解析候補として「くだもの(名詞)/のいちご(名詞)/は(助詞)/おいしい(形容動詞終止形)/ね(助詞)」(第1解析候補:評価点100点)が選択されているものとする。
第2形態素解析部801は、解析候補の形態素単位の単語に識別番号を付ける。識別番号は、「くだもの(名詞)」にk=0、「のいちご(名詞)」にk=1と、以下順番に付けられる。第2形態素解析部801は、k=1の「のいちご(名詞)」が形態素解析辞書105に格納された当該単語の悪影響ドメイン名「児童書」と一致しているので、解析候補の評価点を下げる。評価点は、例えば、入力された日本語テキストの形態素と形態素解析辞書に格納された形態素とのドメイン名が一致することによって60点が減算され、40点となる。
さらに、第2形態素解析部801は、全ての解析候補について評価点再計算処理が終わった後に、解析候補から解析結果を選択する。第2形態素解析部801は、評価点再計算処理において、「くだもの(名詞)/の(助詞)/いちご(名詞)/は(助詞)/おいしい(形容動詞終止形)/ね(助詞)」(第2解析候補:評価点60点)の評価点が維持されたため、第2解析候補を解析結果として出力する。よって、第2形態素解析部801は、解析候補の形態素および解析候補に対応付けられたドメイン名と、形態素解析辞書105の見出しおよび見出しに対応付けられた悪影響ドメイン名とがそれぞれ一致した場合に、解析候補の形態素を、悪影響ドメイン名の属する日本語テキストの文脈として用いられることが望ましくない単語文字列として排除することができる。
以上は、評価点を下げる例を示したが、第2形態素解析部801は、予め図7Bに示す形態素解析辞書105が用意され、日本語テキストの形態素が形態素解析辞書105に格納された当該単語の好影響ドメイン名と一致した場合に、評価点を上げる処理をしてもよい。評価点を上げる処理の例として、日本語テキスト「曹操は権勢を縦にした」(ドメイン名は「中国古典」)が形態素解析される時の動作を以下に記述する。
第2形態素解析部801は、形態素解析によって単語ネットワークを生成し、複数の解析候補を得る。第2形態素解析部801は、単語ネットワークに基づいて、「曹操(固有名詞)/は(助詞)/権勢(名詞)/を(助詞)/縦にし(動詞)/た(助動詞)」(第1解析候補)および「曹操(固有名詞)/は(助詞)/権勢(名詞)/を(助詞)/縦(名詞)/に(助詞)/し(動詞)/た(助動詞)」(第2解析候補)という2つの解析候補を生成する。第2形態素解析部801は、第1解析候補に50点、第2解析候補に100点の評価点を付ける。評価点は、ここでは、解析候補に含まれる形態素単位の自立語(助詞や助動詞などの付属語を除いた単語)の数に応じて付けられるが、品詞の並び順が日本語として適切か否かを判定して付けられてもよい。評価点は、さらに、単語自体の使用頻度によって付けられてもよい。例えば、「縦にする」という表現は、現代文では使用頻度が低いため、評価点が低く付けられる。
さらに、第2形態素解析部801は、第1解析候補の「縦にし(動詞)」が形態素解析辞書105に格納された当該単語のドメイン名「中国古典」と一致しているので、第1解析候補の評価点を上げる。第1解析候補の評価点は、例えば、入力された日本語テキストの形態素と形態素解析辞書に格納された形態素とのドメイン名が一致することによって60点が加算され、110点となる。第2形態素解析部801は、第2解析候補について評価点の加算が無いことから、第1解析候補を解析結果として出力する。よって、第2形態素解析部801は、解析候補の形態素および解析候補に対応付けられたドメイン名と、形態素解析辞書105の見出しおよび見出しに対応付けられた好影響ドメイン名とがそれぞれ一致した場合に、解析候補の形態素を、好影響ドメイン名の属する日本語テキストの文脈として用いられることが望ましい単語文字列として優先することができる。
以上説明したように、第3の実施形態に係る形態素解析装置は、入力された日本語テキストの形態素と形態素解析辞書に格納された形態素とのドメイン名が一致した場合に、その形態素を含む日本語テキストの解析候補の評価点を再計算する。故に、この形態素解析装置によれば、形態素解析における単語文字列の優先度を変えることができるので、従来の方法よりも形態素解析の精度を向上させることができる。
(第4の実施形態)
第4の実施形態に係る形態素解析装置は、評価点再計算処理においてドメイン名の更新回数も利用して解析候補の評価点を付ける点で第3の実施形態に係る形態素解析装置とは異なる。
第4の実施形態に係る形態素解析装置は、評価点再計算処理においてドメイン名の更新回数も利用して解析候補の評価点を付ける点で第3の実施形態に係る形態素解析装置とは異なる。
形態素解析辞書105は、ドメイン名に対応付けられた更新回数(単語に同一ドメイン名が対応付けられた回数)を含めた、形態素解析に必要な情報を第2形態素解析部801へと出力する。
形態素解析装置800は、図9Aの評価点再計算処理(ステップS904)において、ドメイン名に対応付けられた更新回数が設定値を超えているか否かを判定するステップを新規に追加する。
新規ステップが追加された評価点再計算処理(ステップS904)の詳細が図10に例示される。図10の評価点再計算処理は、ステップA902において、ドメイン名が一致する場合に処理がステップA1001へと進む点で図9Bの評価点再計算処理とは異なる。
ステップA1001では、第2形態素解析部801は、形態素解析辞書105のドメイン名に対応付けられた更新回数が設定値を超えているか否かを判定する。更新回数が設定値を超えている場合には処理はステップA903へと進み、そうでなければ処理はステップS904へと進む。
ここで、図10のステップA1001の動作の具体例を図7Cの見出し「のいちご」を用いて説明する。第2形態素解析部801は、日本語テキストの形態素である「のいちご(名詞)」のドメイン名(これは、日本語テキストの属するドメイン名)が形態素解析辞書105に格納された見出し「のいちご」のドメイン名と一致している場合に、更新回数および設定値(例えば4)を比較する。第2形態素解析部801は、一致しているドメイン名が「児童書」の場合、更新回数が設定値を越えていることから、形態素解析辞書105に格納されるドメイン名の信頼度は高いと考えられるので、解析候補の評価点を再計算する。他方、第2形態素解析部801は、一致しているドメイン名が「料理本」の場合、更新回数が設定値を下回っていることから解析候補の評価点を再計算しない。
以上説明したように、第4の実施形態に係る形態素解析装置は、評価点再計算処理においてドメイン名の更新回数も利用して解析候補の評価点をつける。そして、ドメイン名の更新回数も利用することによって、解析候補の信頼度を考慮することができる。故に、この形態素解析装置によれば、従来の方法よりも形態素解析の精度を向上させることができる。
上記各実施形態の処理の少なくとも一部は、コンピュータをハードウェアとして用いることでも実現可能である。ここで、コンピュータは、パーソナルコンピュータに限られず、例えば演算処理装置、マイクロコントローラなどのプログラムを実行可能な任意の装置であってもよい。また、コンピュータは、1つの装置に限らず、複数の装置が例えばインターネット、LANなどのネットワークで接続されたシステムであってもよい。また、コンピュータにインストールされたプログラム内の指示に基づいて、当該コンピュータのミドルウェア(例えば、OS、データベース管理ソフトウェア、ネットワークなど)が上記各実施形態の処理の少なくとも一部を行ってもよい。
上記処理を実現するプログラムは、コンピュータで読み取り可能な記憶媒体に保存されてもよい。プログラムは、インストール可能な形式のファイルまたは実行可能な形式のファイルとして記憶媒体に保存される。プログラムは、1つの記憶媒体にまとめて保存されてもよいし、複数の記憶媒体に分割して保存されてもよい。記憶媒体は、プログラムを保存可能であって、かつ、コンピュータによって読み取り可能であればよい。記憶媒体は、例えば、磁気ディスク、フレキシブルディスク、ハードディスク、光ディスク(CD−ROM、CD−R、DVD等)、光磁気ディスク(MO等)、半導体メモリなどである。
また、上記処理を実現するプログラムを、ネットワークに接続されたコンピュータ(サーバ)上に保存し、ネットワーク経由でコンピュータ(クライアント)にダウンロードさせてもよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100・・・辞書更新装置
101・・・入力部
102・・・形態素解析部
103・・・判定部
104・・・更新部
105・・・形態素解析辞書
106・・・格納部
107・・・出力部
800・・・形態素解析装置
801・・・第2形態素解析部
101・・・入力部
102・・・形態素解析部
103・・・判定部
104・・・更新部
105・・・形態素解析辞書
106・・・格納部
107・・・出力部
800・・・形態素解析装置
801・・・第2形態素解析部
Claims (9)
- テキストと、当該テキストの属するドメイン名とを対応付けて格納する格納部と、
前記テキストを形態素解析することによって解析結果を生成する形態素解析部と、
前記解析結果が、入力された単語文字列を含むように形態素単位の単語に分割されているか否かを判定し、当該解析結果が当該単語文字列を含むように形態素単位の単語に分割されている場合に、形態素解析における当該単語文字列の影響点を計算する判定部と、
前記影響点が基準値を超える場合に、前記単語文字列と前記ドメイン名とを対応付ける更新部と
を具備する、辞書更新装置。 - 前記更新部は、前記単語文字列と前記ドメイン名とを対応付け、形態素解析辞書を更新する、請求項1に記載の辞書更新装置。
- 前記判定部は、前記ドメイン名に属する前記テキストの文脈として用いられない形態素の条件に基づいて、前記単語文字列の前記影響点を計算する、請求項1または請求項2に記載の辞書更新装置。
- 前記判定部は、前記ドメイン名に属する前記テキストの文脈として用いられる形態素の条件に基づいて、前記単語文字列の前記影響点を計算する、請求項1または請求項2に記載の辞書更新装置。
- 前記更新部は、前記単語文字列に前記ドメイン名が付与された回数を当該単語文字列および当該ドメイン名に対応付ける、請求項1乃至請求項4のいずれか1項に記載の辞書更新装置。
- 請求項1乃至請求項5のいずれか1項に記載の辞書更新装置と、
新たなテキストを、対応付けられた前記単語文字列および前記ドメイン名に基づいて、当該単語文字列の優先度を変えて形態素解析することによって前記解析結果を生成する第2形態素解析部と
を具備する、形態素解析装置。 - 請求項5に記載の辞書更新装置と、
新たなテキストを、前記回数が設定値を超えている場合に、対応付けられた前記単語文字列および前記ドメイン名に基づいて、当該単語文字列の優先度を変えて形態素解析することによって前記解析結果を生成する第2形態素解析部と
を具備する、形態素解析装置。 - テキストと、当該テキストの属するドメイン名とを対応付けて格納することと、
前記テキストを形態素解析することによって解析結果を生成することと、
前記解析結果が、入力された単語文字列を含むように形態素単位の単語に分割されているか否かを判定し、当該解析結果が当該単語文字列を含むように形態素単位の単語に分割されている場合に、形態素解析における当該単語文字列の影響点を計算することと、
前記影響点が基準値を超える場合に、前記単語文字列と前記ドメイン名とを対応付けることと
を具備する、辞書更新方法。 - コンピュータを、
テキストと、当該テキストの属するドメイン名とを対応付けて格納する手段と、
前記テキストを形態素解析することによって解析結果を生成する手段と、
前記解析結果が、入力された単語文字列を含むように形態素単位の単語に分割されているか否かを判定し、当該解析結果が当該単語文字列を含むように形態素単位の単語に分割されている場合に、形態素解析における当該単語文字列の影響点を計算する手段と、
前記影響点が基準値を超える場合に、前記単語文字列と前記ドメイン名とを対応付ける手段
として機能させる、辞書更新プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015055271A JP2016177369A (ja) | 2015-03-18 | 2015-03-18 | 辞書更新装置、辞書更新方法、辞書更新プログラムおよび形態素解析装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015055271A JP2016177369A (ja) | 2015-03-18 | 2015-03-18 | 辞書更新装置、辞書更新方法、辞書更新プログラムおよび形態素解析装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016177369A true JP2016177369A (ja) | 2016-10-06 |
Family
ID=57071368
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015055271A Pending JP2016177369A (ja) | 2015-03-18 | 2015-03-18 | 辞書更新装置、辞書更新方法、辞書更新プログラムおよび形態素解析装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2016177369A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107633006A (zh) * | 2017-08-09 | 2018-01-26 | 联动优势科技有限公司 | 一种词典格式生成方法及电子设备 |
CN109213992A (zh) * | 2017-07-06 | 2019-01-15 | 富士通株式会社 | 词素分析装置和词素分析方法 |
KR20200125034A (ko) * | 2019-04-25 | 2020-11-04 | 에스케이텔레콤 주식회사 | 음성분석장치 및 음성분석장치의 동작 방법 |
CN114095212A (zh) * | 2021-10-29 | 2022-02-25 | 北京天融信网络安全技术有限公司 | 一种对抗训练dga域名检测模型的方法及装置 |
KR20230015798A (ko) * | 2021-07-23 | 2023-01-31 | 한국전력공사 | 단어 임베딩용 라이브러리 생성 방법 |
-
2015
- 2015-03-18 JP JP2015055271A patent/JP2016177369A/ja active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109213992A (zh) * | 2017-07-06 | 2019-01-15 | 富士通株式会社 | 词素分析装置和词素分析方法 |
CN107633006A (zh) * | 2017-08-09 | 2018-01-26 | 联动优势科技有限公司 | 一种词典格式生成方法及电子设备 |
CN107633006B (zh) * | 2017-08-09 | 2020-10-13 | 联动优势科技有限公司 | 一种词典格式生成方法及电子设备 |
KR20200125034A (ko) * | 2019-04-25 | 2020-11-04 | 에스케이텔레콤 주식회사 | 음성분석장치 및 음성분석장치의 동작 방법 |
KR102279319B1 (ko) * | 2019-04-25 | 2021-07-19 | 에스케이텔레콤 주식회사 | 음성분석장치 및 음성분석장치의 동작 방법 |
KR20230015798A (ko) * | 2021-07-23 | 2023-01-31 | 한국전력공사 | 단어 임베딩용 라이브러리 생성 방법 |
KR102543866B1 (ko) * | 2021-07-23 | 2023-06-20 | 한국전력공사 | 단어 임베딩용 라이브러리 생성 방법 |
CN114095212A (zh) * | 2021-10-29 | 2022-02-25 | 北京天融信网络安全技术有限公司 | 一种对抗训练dga域名检测模型的方法及装置 |
CN114095212B (zh) * | 2021-10-29 | 2023-09-01 | 北京天融信网络安全技术有限公司 | 一种对抗训练dga域名检测模型的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2016177369A (ja) | 辞書更新装置、辞書更新方法、辞書更新プログラムおよび形態素解析装置 | |
US20110184723A1 (en) | Phonetic suggestion engine | |
US20220083577A1 (en) | Information processing apparatus, method and non-transitory computer readable medium | |
US11593557B2 (en) | Domain-specific grammar correction system, server and method for academic text | |
US20070179779A1 (en) | Language information translating device and method | |
CN103140849A (zh) | 音译处理装置、程序、记录媒体及方法 | |
CN105390049A (zh) | 电子装置和发音学习支援方法 | |
JP2008198132A (ja) | 固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置 | |
JP2017208097A (ja) | エンティティの多音字の曖昧さ回避方法及びエンティティの多音字の曖昧さ回避装置 | |
JP2019003552A (ja) | 処理方法、処理装置、及び処理プログラム | |
JP2019204445A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP2015219582A (ja) | 対話方法、対話装置、対話プログラム及び記録媒体 | |
US20180341646A1 (en) | Translated-clause generating method, translated-clause generating apparatus, and recording medium | |
US7409334B1 (en) | Method of text processing | |
JP5853595B2 (ja) | 形態素解析装置、方法、プログラム、音声合成装置、方法、プログラム | |
CN109002454B (zh) | 一种确定目标单词的拼读分区的方法和电子设备 | |
EP2511831A1 (en) | Text processor and method of text processing | |
JP2012185654A (ja) | 翻訳装置、翻訳プログラムおよび翻訳方法 | |
JP6043651B2 (ja) | 読みがな割当装置およびプログラム | |
US10255904B2 (en) | Reading-aloud information editing device, reading-aloud information editing method, and computer program product | |
Jansche et al. | Named entity transcription with pair n-gram models | |
JP6451151B2 (ja) | 質問応答装置、質問応答方法、プログラム | |
Doshi et al. | Normalizing text using language modelling based on phonetics and string similarity | |
JP5060539B2 (ja) | 文書処理装置およびプログラム | |
JP2010282453A (ja) | 機械翻訳方法、及びシステム |