JP5169602B2 - 形態素解析装置、形態素解析方法及びコンピュータプログラム - Google Patents

形態素解析装置、形態素解析方法及びコンピュータプログラム Download PDF

Info

Publication number
JP5169602B2
JP5169602B2 JP2008203479A JP2008203479A JP5169602B2 JP 5169602 B2 JP5169602 B2 JP 5169602B2 JP 2008203479 A JP2008203479 A JP 2008203479A JP 2008203479 A JP2008203479 A JP 2008203479A JP 5169602 B2 JP5169602 B2 JP 5169602B2
Authority
JP
Japan
Prior art keywords
word
sentence
word dictionary
speech
notation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008203479A
Other languages
English (en)
Other versions
JP2010039864A (ja
Inventor
伸之 片江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2008203479A priority Critical patent/JP5169602B2/ja
Publication of JP2010039864A publication Critical patent/JP2010039864A/ja
Application granted granted Critical
Publication of JP5169602B2 publication Critical patent/JP5169602B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、自然言語の文章の形態素解析を行う形態素解析装置、形態素解析方法及び形態素解析装置をコンピュータによって実行するためのコンピュータプログラムに関する。
従来、自然言語の文章を形態素の列、あるいは一又は複数の形態素からなる単語の列に分割する形態素解析は、音声合成システム、音声照合システム、テキスト検索システム、文書作成システムなどに広く利用されている。形態素とは、意味を持つ最小の言語単位であり、単語は一又は複数の形態素から成る。形態素解析とは、自然言語を形態素に分割することであるが、システムによっては、自然言語を単語に分割することを指す場合もある。また、形態素解析に用いる辞書は正しくは形態素辞書と呼ぶべきであるが、単語辞書と呼ばれることもあり、本明細書では単語辞書と記述している。形態素解析は、その結果がシステムに大きな影響を与えるため高い精度を確保することが要求されている。形態素解析は、通常、単語の表記及び品詞情報が対応づけて登録された単語辞書を用い、単語辞書内の各単語の表記と、文章内の各単語の表記を照合し、一致する単語の候補を抽出し、さらに単語候補のそれぞれの品詞を参照しながら、最適な単語の組み合わせを決定することによって文章を形態素の列(一又は複数の形態素)に分割し、それぞれの品詞を判別する。
図23は従来の形態素解析装置が用いる単語辞書の登録内容の一例を示す模式図である。単語辞書には、少なくとも単語の表記及び品詞情報が対応して登録されている。また、形態素解析を音声合成システム又は音声照合システムで用いる場合、単語辞書には、単語の読み及びアクセント情報が更に登録されている。
単語の表記は、文字コードに基づいて管理されており、漢字及び仮名(平仮名及び片仮名を含む)からなる「漢字かな混じり表記」が一般的である。また、品詞情報は、単語の文法的な機能及び形態を示すものである。但し、品詞の分類体系は、一意的ではなく、操作者の経験又は統計的に基づいて定義付けがなされる。
また、読み情報は、漢字の読みであり、仮名又はローマ表記で示される。また、アクセント情報は、一定の時間的長さをもった音の分節単位(モーラ)間の高低の変化を示す。例えば、「童話」という語は、3モーラからなり各モーラ間で高低の変化がないので「0型」と登録されている。また、「話術」という語は、3モーラからなり1及び2モーラ間に高低の変化があるので「1型」と登録されている。また、「話」という語は、3モーラからなり「が」とい助詞が続くときに3モーラ及び助詞の間に高低の変化があるので「3型」と登録されている。また、助詞は、単体で発声されないので「−」と登録されている。
形態素解析は、品詞情報を用いて自然言語の文章として不都合がないように尤もらしい単語の組み合わせを選択する。形態素解析を効率的に実行するアルゴリズムとして、ビタビ(Viterbi)アルゴリズムが知られている。形態素解析は、例えば、「童話を読みます。」という自然言語の文章が入力された場合、以下の解析結果を出力する。
童話 普通名詞 ドーワ
を 格助詞 オ
読 マ行五段動詞語幹 ヨ
み マ行五段動詞連用形 ミ
ます 助動詞終止形 マス
ところで小学校低学年の教科書、外国人向けの教科書などにあっては、常用漢字の全てを習得していない児童又は外国人のため、常用漢字の一部又は全部を仮名に置換した交書きにされている。更に、このような漢字の少ない文章は、語の区切りが不明瞭となるため、区切り箇所に空白を挟んで記述する分かち書きにされている。
しかし、従来の形態素解析装置は、分かち書きの文章を正確に解析することができない。即ち、従来の形態素解析装置が用いる一般文章用の単語辞書には、交書きに関する情報が登録されていないため、形態素解析装置は、交書きされた部分をすべて未知語として処理することになってしまう。そのため、正確に解析することができなかった。
そこで、従来、交書きの読みを一般文章用の単語辞書に登録されている単語の読みと照合させることにより、分かち書きの形態素解析を行うようにした装置が提案された(例えば、特許文献1)。
特開平9−190440号公報
しかしながら、従来の形態素解析装置にあっては、単語の読みとして登録されていれば、本来未知語として処理すべき単語についても、単語辞書に登録されている何らかの単語として解析してしまうという問題を有していた。
この点、交書きに関する情報を単語辞書に追記することで、上述した問題を解決することができる。しかし、形態素解析装置は、10万語程度が登録された単語辞書を用いることにより一般的な文章の形態素解析を行うように設計されているので、10万語以上登録された単語辞書は、形態素解析装置に過大な負担を与え、形態素解析処理の遅延を招来させるという問題を有している。
また、従来の形態素解析装置は、例えば、「ふさがない」という単語が「塞がない」であるのか「房がない」であるのかを判断することができないため、正確に形態素解析を実行することができないという問題を有している。
本発明はかかる事情に鑑みてなされたものであり、自然言語の文章が文節毎に分かち書きにされているか否かを判別し、判別結果に応じて、単語の表記とその品詞とを対応付けて格納する第1単語辞書及び/又は単語の表記に含まれる漢字の全部又は一部を仮名で表す交書きの表記とその品詞とを対応付けて格納する第2単語辞書を選択し、選択した単語辞書に基づいて文章の形態素解析を行うようにしてあることにより、分かち書きにされた文章であっても正確な形態素解析を実行することができる形態素解析装置、形態素解析方法及びコンピュータプログラムを提供することを目的とする。
この装置、方法及びコンピュータプログラムは、自然言語の文章が文節毎に分かち書きにされているか否かを判別する判別手段と、単語の表記とその品詞とを対応付けて格納する第1単語辞書記憶手段と、単語の表記に含まれる漢字の全部又は一部を仮名で表す交書きの表記とその品詞とを対応付けて格納する第2単語辞書記憶手段と、前記判別手段による判別結果に応じて前記第1単語辞書記憶手段及び/又は第2単語記憶手段を選択する選択手段と、選択した単語辞書記憶手段に記憶してある表記及び品詞に基づいて前記文章の形態素解析を行う手段とを備えることを要件とする。
この装置、方法及びコンピュータプログラムは、単語の表記とその品詞とを対応付けて格納する第1単語辞書を記憶すると共に、単語の表記に含まれる漢字の全部又は一部を仮名で表す交書きの表記とその品詞とを対応付けて格納する第2単語辞書を記憶することにより、一般的な文章及び分かち書き文章の形態素解析で用いるための単語辞書を予め準備しておく。また、形態素解析すべき文章が分かち書きにされているか否かを判断し、判断結果に応じて第1単語辞書及び/又は第2単語辞書を選択することにより、テキストの属性に最適な単語辞書を選択する。また、選択した単語辞書に基づいて形態素解析を行うことにより、テキストの属性に最適な単語辞書を用いて形態素解析を実行することができる。
開示する装置、方法及びコンピュータプログラムは、一般的な文章のみならず、分かち書きにされた文章であっても正確な形態素解析を実行することができる。
実施の形態1.
以下、実施の形態1における形態素解析装置、形態素解析方法及びコンピュータに形態素解析装置を実行させるためのコンピュータプログラムを実施の形態を示す図面に基づいて説明する。なお、以下、実施の形態では、コンピュータプログラムを汎用のコンピュータに読み取らせ、コンピュータのCPUが所定の処理を実行することにより、形態素解析装置として機能する場合を説明する。しかし、本発明は、これに限定されるものでなく、例えば、等価な働きをする専用のハードウェアを有する形態素解析装置に関するものであってもよい。
図1は本発明の一実施例における形態素解析装置を有する情報処理装置の構成例を示すブロック図である。実施の形態1における情報処理装置は、汎用コンピュータ又は個人向けコンピュータ(Personal Computer)であり、中央処理装置(以下CPUという)10、外部記憶装置11、通信制御部12、主記憶13、補助記憶装置14、入力制御部15及び出力制御部16などを有し、各部はバス17を介して相互に接続されている。
外部記憶装置11は、記録媒体11aが記憶してあるプログラム又はテキストファイルなどを読み取るための駆動装置であり、例えば、フレキシブルディスク、CDーROMドライブ、DVDドライブが該当する。外部記憶装置11は、記録媒体11aからプログラム又はテキストファイルを読み出して補助記憶装置14へ出力する。記録媒体11aは、その他、形態素解析装置として機能させるための応用プログラムソフトウェアなどを記憶している。
通信制御部12は、特定の物理層及びデータリンク層を使用して通信するための電子的な回路を実装しており、通信網に接続して他の汎用コンピュータと通信を行う。通信制御部12は、例えば、通信網を介してHTMLで記述された構造化文書又は文章データを含むテキストファイルなどを転送してくる。
主記憶13は、CPU10が機能するために必要なプログラムを補助記憶装置14から読み出してCPU10へ出力する。また、主記憶13は、補助記憶装置14から読み出したテキストファイルをCPU10へ出力する。また、主記憶13は、補助記憶装置14から読み出したテキスト属性情報をCPU10へ出力する。また、主記憶13は、CPU10が形態素解析を実行することにより生じた形態素解析の結果などを記憶領域に記憶する。また、主記憶13は、記憶領域に記憶してあるデータを補助記憶装置14へ出力する。CPU13は、例えば、SDRAM(Synchronous DRAM)又はSRAM(Static RAM)などの半導体が該当する。
補助記憶装置14は、外部記憶装置11又は通信制御部12から受け付けたプログラムを格納し、CPU10の要求に応じて主記憶13へ適宜出力する。また、補助記憶装置14は、外部記憶装置11、通信制御部12又は入力制御部15から受け付けたテキストファイルを格納し、CPU10の要求に応じて主記憶13へ適宜出力する。また、補助記憶装置14は、入力制御部15からテキスト属性情報を受け付けた場合、それを格納し、CPU10の要求の応じて主記憶13へ適宜出力する。また、補助記憶装置14は、主記憶13から受け付けた、形態素解析の結果などを格納し、CPU10の要求に応じて出力制御部16へ出力する。補助記憶装置14は、例えば、磁気ディスク記録方式のハードディスクドライブなどが該当する。
入力制御部15は、キーボード及びマウスなどの入力装置15aと接続し、入力装置15aを介して操作者により入力された文章データ又はテキスト属性情報などを受け付けて主記憶13へ出力する。
出力制御部16は、液晶ディスプレイ又はスピーカなどの出力装置16aと接続し、CPU10が処理した形態素解析の結果などを出力装置16aを介して画面出力又は音声出力する。
CPU10は、上述した各部を制御すると共に、補助記憶装置14に記憶してあるプログラムに従って所定の処理を実行することにより、形態素解析装置として機能する。具体的には、CPU10及び上述したハードウェアが形態素解析装置を構成している。以下、実施例1乃至6に分けて説明する。
実施例1.
図2は本発明の一実施例における形態素解析装置の機能構成例を示す機能ブロック図である。形態素解析装置は、CPU10及び補助記憶装置14が格納する各単語辞書とから成る。
実施例1における補助記憶装置14は、各単語辞書の記憶手段として、一般文章用となる一般単語辞書D1及び分かち書き文章用となる特別単語辞書D2を格納する。図3は単語辞書の登録内容の一例を示す模式図である。一般単語辞書D1には、各単語の表記、品詞、読み及びアクセントが対応づけて登録されている(図3(a))。一般単語辞書D1は、上述した従来の形態素解析装置が用いる単語辞書と同様であるので、その説明を省略する。
特別単語辞書D2は、各単語の表記が含む漢字の全部又は一部を仮名に置換した交書きの表記で登録されている(図3(b))。交書きの表記とは、漢字かな混じり表記で「童話」と表す漢字の一部又は全部を仮名に置換して「どうわ」、「どう話」又は「童わ」と表すことをいう。また、特別単語辞書D2は、交書きの表記に対応づけて品詞、読み及びアクセントが登録されている。
なお、特別単語辞書D2には、漢字かな混じり表記で「閑話」及び「話術」で表す漢字に対する交書きの表記が登録されていない。かかる漢字は、交書きで表記されることがないからである。
実施例1におけるCPU10は、主記憶13から出力されたテキストファイルを受け付けるテキスト読込部101と、主記憶13から出力されたテキスト属性情報を受け付けるテキスト属性読込部102と、受け付けたテキスト属性情報に基づいて、テキストファイルの文章が分かち書きであるか否かを判別するテキスト属性判別部103と、テキスト属性判別部103が判別したテキスト属性に応じて補助記憶装置14に格納してある単語辞書のいずれかを選択する単語辞書選択部104と、単語辞書選択部104が選択した単語辞書を用いて、テキストファイルの文章を形態素解析する形態素解析部105と、形態素解析部105が実行した形態素解析の結果を生成して主記憶13へ出力する形態素解析結果出力部106として機能する。
このように、実施例1における形態素解析装置は、一般的な漢字かな混じり表記用の一般単語辞書D1と、交書き表記用の特別単語辞書D2とを用意しておき、分かち書きであるか否かに応じて単語辞書を選択し、選択した単語辞書を用いて文章の形態素解析を実行する。その結果、実施例1における形態素解析装置は、分かち書き文章の形態素解析の精度を向上させると共に、単語辞書のファイルサイズの膨張を抑えることができる。
最後に実施例1における形態素解析装置が、補助記憶装置14に格納してあるプログラムに従って実行する形態素解析に処理の手順について説明する。図4は本発明の一実施例における形態素解析装置が実行する形態素解析処理の手順を示すフローチャートである。
形態解析装置のCPU10は、テキスト読込部101及びテキスト属性読込部102として機能し、主記憶13からテキストファイル及びテキスト属性を受け付ける(S101)。CPU10は、テキスト属性判別部103として機能し、受け付けたテキスト属性が分かち書きを示しているか否かを判別する(S102)。CPU10は、受け付けたテキスト属性が分かち書きを示していないと判別した場合(S102でNO)、単語辞書選択部104として機能し、補助記憶装置14から一般単語辞書D1を選択し(S103)、ステップS105へ進む。
一方、CPU10は、受け付けたテキスト属性が分かち書きを示していると判別した場合(S102でYES)、単語辞書選択部104として機能し、補助記憶装置14から一般単語辞書D1及び特別単語辞書D2を選択し(S104)、ステップS105へ進む。
CPU10は、一般単語辞書D1を選択した場合(S103参照)、又は一般単語辞書D1及び特別単語辞書D2を選択した場合(S104参照)、形態素解析部105として機能し、受け付けたテキストファイルから一文を抽出する(S105)。
CPU10は、選択した単語辞書に基づいて形態素解析を実行する(S106)。CPU10は、形態素解析結果出力部106として機能し、形態素解析の結果を主記憶13へ出力する(S107)。CPU10は、テキストファイル内の全文の処理が完了したか否かを判定し(S108)、全文の処理が完了していないと判定した場合(S108でNO)、ステップS105へ戻り、テキストファイルから次の一文を抽出して処理を繰り返す。
一方、CPU10は、全文の処理が完了したと判定した場合(S108でYES)、形態素解析処理を終了する。以上、実施例1について説明した。
実施例2.
上述した実施例1では、操作者により入力されたテキスト属性に基づいて、テキストファイルの文章が分かち書きであるか否かを判別する一例を説明した。しかし、テキストファイルの形態素解析を多数実行する場合には操作者の負担が増大する。そこで、実施の形態1における形態素解析装置は、これに限定されるものでなく、テキストファイルの文章が分かち書きであるか否かを自動的に判別するようにしてもよい。実施例2では、かかる機能を有する形態素解析装置について説明する。
図5は本発明の一実施例における形態素解析装置の機能構成例を示す機能ブロック図である。実施例2における補助記憶装置14は、各単語辞書の記憶手段として、一般文章用となる一般単語辞書D1及び分かち書き文章用となる特別単語辞書D2を格納する。一般単語辞書D1及び特別単語辞書D2の登録内容は、実施例1における各単語辞書と同様であるから、その説明を省略する。
実施例2におけるCPU10は、主記憶13から出力されたテキストファイルを受け付けるテキスト読込部101aと、テキスト読込部101aが受け付けたテキストファイルの属性を自動的に判別するテキスト属性判別部103aと、テキスト属性判別部103aが判別したテキストの属性に応じて補助記憶装置14に格納してある単語辞書のいずれかを選択する単語辞書選択部104aと、単語辞書選択部104aが選択した単語辞書を用いて、テキスト読込部101aが受け付けたテキストファイルの文章を形態素解析する形態素解析部105aと、形態素解析部105aが実行した形態素解析の結果を生成して主記憶13へ出力する形態素解析結果出力部106aとして機能する。
実施例2における形態素解析装置は、補助記憶装置14に格納してあるプログラムに従って上述した機能を発揮させることにより、以下の処理を実行する。図6は本発明の一実施例における形態素解析装置が実行する形態素解析処理の手順を示すフローチャートである。
形態素解析装置のCPU10は、テキスト読込部101aとして機能し、主記憶13からテキストファイルを受け付ける(S201)。CPU10は、テキスト属性判別部103aとして機能し、受け付けたテキストファイルの属性が分かち書きを示すか否かを判別するテキスト属性判別処理を実行する(S202)。なお、テキスト属性判別処理の手順については、後述にて説明する。
CPU10は、テキスト属性判別処理の結果、テキスト属性が分かち書きを示しているか否かを判別する(S203)。CPU10は、テキスト属性が分かち書きを示していないと判別した場合(S203でNO)、単語辞書選択部104aとして機能し、補助記憶装置14から一般単語辞書D1を選択し(S204)、ステップS206へ進む。
一方、CPU10は、テキスト属性が分かち書きを示していると判別した場合(S203でYES)、単語辞書選択部104aとして機能し、補助記憶装置14から一般単語辞書D1及び特別単語辞書D2を選択し(S205)、ステップS206へ進む。
CPU10は、一般単語辞書D1を選択した場合(S204参照)、一般単語辞書D1及び特別単語辞書D2を選択した場合(S205参照)、形態素解析部105aとして機能し、受け付けたテキストファイルから一文を抽出する(S206)。
CPU10は、選択した単語辞書に基づいて形態素解析を実行する(S207)。CPU10は、形態素解析結果出力部106aとして機能し、形態素解析の結果を主記憶13へ出力する(S208)。CPU10は、テキストファイル内の全文の処理が完了したか否かを判定し(S209)、全文の処理が完了していないと判定した場合(S209でNO)、ステップS206へ戻り、テキストファイルから次の一文を抽出して処理を繰り返す。
一方、CPU10は、全文の処理が完了したと判定した場合(S209でYES)、形態素解析処理を終了する。
ここで実施例2における形態素解析装置がステップS202で実行するテキスト属性判別処理の手順について説明する。図7及び8は本発明の一実施例における形態素解析装置が実行するテキスト属性判別処理の手順を示すフローチャートである。形態素解析装置は、テキスト属性判別処理を実行することにより、操作者により入力されたテキスト属性を受け付けることなく、テキストファイルの属性を自動的に判別することができる。
形態素解析装置のCPU10は、受け付けたテキストファイルから文章を抽出し、抽出した文章の各文字の位置を取得して主記憶13に記憶する。また、CPU10は、抽出した文章の空白又は改行の位置を区切りの位置として取得し、2つの区切り位置に挟まれた文字列(以下連続文字列という)の個数nと、n番目の連続文字列の長さlength〔n〕とを主記憶13に記憶する。また、CPU10は、現時点で注目している文字の位置を示す変数であるポインタを主記憶13に記憶する。
CPU10は、主記憶13に記憶してある、ポインタに文頭位置を設定し(S301)、連続文字列の個数nを初期化(n=0)し(S302)、n番目の連続文字列の長さを初期化(length〔n〕=0)する(S303)。
CPU10は、全ての文字列の処理が完了したか否か、即ち、ポインタが文末の位置を示している否かを判定する(S304)。その結果、CPU10は、ポインタが文末の位置を示していないと判定した場合(S304でNO)、更にポインタが空白又は改行の位置を示しているか否かを判定する(S305)。その結果、CPU10は、ポインタが空白又は改行の位置を示していないと判定した場合(S305でNO)、連続文字列の長さを1文字追加、即ち、length〔n〕=length〔n〕+1とする(S306)。CPU10は、ステップS309へ進む。
一方、CPU10は、ステップS305において、ポインタが空白又は改行の位置を示していると判定した場合(S305でYES)、連続文字列の個数nを1文字列追加、即ち、n=n+1とする(S307)。CPU10は、連続文字列の長さを初期化、即ち、length〔n〕=0とし(S308)、次の連続文字列の長さの計測に備えつつステップS309へ進む。
CPU10は、連続文字列の長さを1文字追加した場合(S306参照)、又は連続文字列の長さを初期化した場合(S308参照)、更にポインタを1文字分進め(S309)、ステップS304へ戻り、処理を繰り返す。
CPU10は、ステップS304において、ポインタが文末の位置を示していると判定した場合(S304でYES)、計測した全ての連続文字列の個数n及び各連続文字列の長さlength〔n〕を用いて平均連続文字列長average_lengthを算出(average_length=Σ(length〔n〕/n))する(S310)。CPU10は、算出した平均連続文字列長average_lengthが閾値未満であるか否かを判定する(S311)。閾値は、操作者により予め設定されたものであり、例えば、分かち書きとされ易い5〜10文字程度に設定される。その結果、CPU10は、算出した平均連続文字列長average_lengthが閾値未満である場合(S311でYES)、テキストファイルのテキスト属性が分かち書きであると判別する(S312)。CPU10は、テキスト属性判別処理を停止し、異なるテキストファイルを受け付けたときにテキスト属性判別処理を繰り返す。
一方、CPU10は、算出した平均連続文字列長average_lengthが閾値以上である場合(S311でNO)、テキストファイルのテキスト属性が一般的な文章であると判別する(S313)。CPU10は、テキスト属性判別処理を停止し、異なるテキストファイルを受け付けたときにテキスト属性判別処理を繰り返す。
このように、実施例2における形態素解析装置にあっては、テキストファイルの文章が分かち書きであるか否かを自動的に判別するので、操作者がテキスト属性を入力する必要がなく、操作者の操作負担を軽減させることができる。以上、実施例2について説明した。
実施例3.
上述した実施例1及び2では、形態素解析装置が有する補助記憶装置14に一般的な漢字かな混じり表記が登録された一般単語辞書D1と、交書き表記が登録された特別単語辞書D2とを予め格納している一例を説明した。しかし、複数の単語辞書を常に管理する必要があり、大きな記憶領域が必要となる。そこで、実施の形態1における形態素解析装置は、これに限定されるものでなく、補助記憶装置14に一般単語辞書D1のみを格納しておき、分かち書きのテキストファイルを受け付ける都度該当する単語の交書き表記を登録した変換単語辞書D3を動的かつ一時的に生成するようにしてもよい。実施例3では、かかる機能を有する形態素解析装置について説明する。
図9は本発明の一実施例における形態素解析装置の機能構成例を示す機能ブロック図である。実施例3における補助記憶装置14は、単語辞書の記憶手段として、一般文章用の一般単語辞書D1のみを格納し、一般単語辞書D1に基づいて動的かつ一時的に生成された変換単語辞書D3を格納する。
図10は単語辞書の登録内容の一例を示す模式図である。一般単語辞書D1には、上述した実施例1における一般単語辞書D1の登録内容の他に、変換可否、漢字かな対応及び平仮名インデックスの情報が対応づけて格納されている(図10(a))。
変換可否は、対応する単語を交書きに変換することができるか否かを示す情報である。例えば、「童話」又は「電話」など、理解され易い単語は、交書きに変換することができる。一方、「閑話」又は「話術」など、理解され難い単語は、交書きに変換することができない。
漢字かな対応は、単語に含まれる漢字の読み仮名を夫々示すものであり、交書きの態様を示す。
平仮名インデックスは、交書きへの変換時機を示すものである。CPU10は、テキストファイルの文章を文頭から検索し、平仮名インデックスを含む漢字が出現したとき、その漢字を平仮名に変換する。例えば、文章中にインデックス「ど」又は「わ」が出現したとき(図10(a)参照)、対応する漢字「童話」を交書きに変換し、変換した交書きの表記、品詞、読み及びアクセントを変換単語辞書D3に登録する(図10(b)参照)。また、CPU10は、文章中にインデックス「で」又は「わ」が出現したとき、対応する漢字「電話」を交書きに変換して変換単語辞書D3に登録する(図10(c)参照)。
実施例3におけるCPU10は、主記憶13から出力されたテキストファイルを受け付けるテキスト読込部101bと、主記憶13から出力されたテキスト属性を受け付けるテキスト属性読込部102bと、テキスト属性読込部102bが受け付けたテキスト属性情報に基づいてテキスト読込部102bが読み込んだテキストファイルの属性を判別するテキスト属性判別部103bと、テキスト属性判別部103bが判別したテキストの属性に応じて補助記憶装置14に格納してある単語辞書のいずれかを選択する単語辞書選択部104bと、単語辞書選択部104bが選択した単語辞書を用いて、テキスト読込部101bが読み込んだテキストファイルの文章を形態素解析する形態素解析部105bと、形態素解析部105bが実行した形態素解析の結果を生成して主記憶13へ出力する形態素解析結果出力部106bと、一般単語辞書D1から変換単語辞書D3を生成する単語辞書変換部107として機能する。
実施例3における形態素解析装置は、補助記憶装置14に格納してあるプログラムに従って上述した機能を発揮させることにより、以下の処理を実行する。図11及び図12は本発明の一実施例における形態素解析装置が実行する形態素解析処理の手順を示すフローチャートである。
形態素解析装置のCPU10は、テキスト読込部101b及びテキスト属性読込部102bとして機能し、主記憶13からテキストファイル及びテキスト属性を受け付ける(S401)。CPU10は、受け付けたテキストファイルから一文を抽出する(S402)。CPU10は、テキスト属性判別部103bとして機能し、受け付けたテキスト属性が分かち書きを示しているか否かを判別する(S403)。その結果、CPU10は、受け付けたテキスト属性が分かち書きを示していないと判別した場合(S403でNO)、単語辞書選択部104bとして機能し、補助記憶装置14から一般単語辞書D1を選択し(S404)、選択した単語辞書を受け付ける。CPU10は、形態素解析部105bとして機能し、受け付けた単語辞書のそれぞれの単語が、抽出した一文と部分一致するか否かを照合する。CPU10は、一致した単語を単語候補として選択し(S405)、ステップS410へ進む。
一方、CPU10は、受け付けたテキスト属性が分かち書きを示していると判別した場合(S403でYES)、単語辞書変換部107として機能し、補助記憶装置14から一般単語辞書D1を読み出し、読み出した一般単語辞書D1内のそれぞれの単語の平仮名インデックスが、抽出した一文に存在するか否かを文頭から照合する。CPU10は、平仮名インデックスが抽出した一文に存在する単語について、漢字の全部又は一部を仮名にした交書き表記に変換し(S406)、変換した交書きの表記を変換単語辞書D3に登録するとともに、対応する単語の品詞、読み及びアクセントを一般単語辞書D1から抽出して変換単語辞書D3に登録する(S407)。CPU10は、単語辞書選択部104として機能し、一般単語辞書D1及び変換単語辞書D3を選択する(S408)。さらに、選択した一般単語辞書D1及び変換単語辞書D3から、抽出した一文と部分一致する単語を単語候補として選択し(S409)、ステップS410へ進む。
CPU10は、一般単語辞書D1で一致した単語を単語候補とした場合(S405参照)、又は一般単語辞書D1及び変換単語辞書D3で一致した単語を選択した場合(S409参照)、形態素解析部105bとして機能し、選択した単語候補の最適な組み合わせを決定する形態素解析を実行する(S410)。CPU10は、形態素解析結果出力部106として機能し、実行した形態素解析の結果を主記憶13へ出力する(S411)。CPU10は、テキストファイル内の全文の処理が完了したか否かを判定し(S412)、全文の処理が完了していないと判定した場合(S412でNO)、ステップS402へ戻り、テキストファイルから次の一文を抽出して処理を繰り返す。
一方、CPU10は、全文の処理が完了したと判定した場合(S412でYES)、形態素解析処理を終了する。
このように、実施例3における形態素解析装置にあっては、補助記憶装置14に一般単語辞書D1のみを格納しておき、分かち書きのテキストファイルを受け付ける都度該当する単語の表記が含む漢字を交書き表記に変換した変換単語辞書D3を動的かつ一時的に生成することにより、単語辞書のファイルサイズの膨張を抑えることができ、記憶領域を節約することができ、形態素解析装置の処理負担を軽減できる。以上、実施例3について説明した。
実施例4.
上述した実施例3では、操作者により入力されたテキスト属性に基づいて、テキストファイルの文章が分かち書きであるか否かを判別する一例を説明した。しかし、テキストファイルの形態素解析を多数実行する場合、操作者の負担が増大する。そこで、実施の形態1における形態素解析装置は、これに限定されるものでなく、テキストファイルの文章が分かち書きであるか否かを自動的に判別するようにしてもよい。実施例4では、かかる機能を有する形態素解析装置について説明する。
図13は本発明の一実施例における形態素解析装置の機能構成例を示す機能ブロック図である。実施例4における補助記憶装置14は、単語辞書の記憶手段として、一般文章用となる一般単語辞書D1のみを格納し、一般単語辞書D1に基づいて動的かつ一時的に生成された変換単語辞書D3を格納する。一般単語辞書D1及び変換単語辞書D3の登録内容は、実施例3における各単語辞書と同様であるから、その説明を省略する。
実施例4におけるCPU10は、主記憶13から出力されたテキストファイルを受け付けるテキスト読込部101cと、テキスト読込部101cが受け付けたテキストファイルの属性を自動的に判別するテキスト属性判別部103cと、テキスト属性判別部103cが判別したテキストの属性に応じて補助記憶装置14に格納してある単語辞書のいずれかを選択する単語辞書選択部104cと、単語辞書選択部104cが選択した単語辞書を用いて、テキスト読込部101cが読み込んだテキストファイルの文章を形態素解析する形態素解析部105cと、形態素解析部105cが実行した形態素解析の結果を生成して主記憶13へ出力する形態素解析結果出力部106cと、一般単語辞書D1から変換単語辞書D3を生成する単語辞書変換部107として機能する。
実施例4における形態素解析装置は、補助記憶装置14に格納してあるプログラムに従って上述した機能を発揮させることにより、以下の処理を実行する。図14及び図15は本発明の一実施例における形態素解析装置が実行する形態素解析処理の手順を示すフローチャートである。
形態素解析装置のCPU10は、テキスト読込部101cとして機能し、主記憶13からテキストファイルを受け付ける(S501)。CPU10は、テキスト属性判別部103cとして機能し、受け付けたテキストファイルの属性が分かち書きを示すか否かを判別するテキスト属性判別処理を実行する(S502)。なお、テキスト属性判別処理の手順は、実施例2におけるテキスト属性判別処理と同様であるから、対応するステップに同一番号を付してその説明を省略する。
CPU10は、受け付けたテキストファイルから一文を抽出する(S503)。CPU10は、テキスト属性判別処理の結果、テキスト属性が分かち書きを示しているか否かを判別する(S504)。CPU10は、テキスト属性が分かち書きを示していないと判別した場合(S504でNO)、単語辞書選択部104cとして機能し、補助記憶装置14から一般単語辞書D1を選択し(S505)、選択した単語辞書を受け付ける。CPU10は、形態素解析部105cとして機能し、受け付けた単語辞書のそれぞれの単語が、抽出した一文と部分一致するか否かを照合する。CPU10は、一致した単語を単語候補として選択し(S506)、ステップS511へ進む。
一方、CPU10は、テキスト属性が分かち書きを示していると判別した場合(S504でYES)、単語辞書変換部107として機能し、補助記憶装置14から一般単語辞書D1を読み出し、読み出した一般単語辞書D1内のそれぞれの単語の平仮名インデックスが、抽出した一文に存在するか否かを文頭から照合する。CPU10は、平仮名インデックスが抽出した一文に存在する単語について、漢字の全部又は一部を仮名にした交書き表記に変換し(S507)、変換した交書きの表記を変換単語辞書D3に登録するとともに、対応する単語の品詞、読み及びアクセントを一般単語辞書D1から抽出して変換単語辞書D3に登録する(S508)。CPU10は、単語辞書選択部104として機能し、一般単語辞書D1及び変換単語辞書D3を選択する(S509)。さらに、選択した一般単語辞書D1及び変換単語辞書D3から、抽出した一文と部分一致する単語を単語候補として選択し(S510)、ステップS511へ進む。
CPU10は、一般単語辞書D1で一致した単語を単語辞書とした場合(S506参照)、又は一般単語辞書D1及び変換単語辞書D3で一致した単語を選択した場合(S510参照)、形態素解析部105cとして機能し、選択した単語の最適な組み合わせを決定する形態素解析を実行する(S511)。CPU10は、形態素解析結果出力部106cとして機能し、実行した形態素解析の結果を主記憶13へ出力する(S512)。CPU10は、テキストファイル内の全文の処理が完了したか否かを判定し(S513)、全文の処理が完了していないと判定した場合(S513でNO)、ステップS502へ戻り、テキストファイルから次の一文を抽出して処理を繰り返す。
一方、CPU10は、全文の処理が完了したと判定した場合(S513でYES)、形態素解析処理を終了する。
このように、実施例4における形態素解析装置にあっては、補助記憶装置14に一般単語辞書D1のみを格納しておき、分かち書きのテキストファイルを受け付ける都度該当する単語の表記が含む漢字を交書き表記に変換した変換単語辞書D3を動的かつ一時的に生成することにより、単語辞書のファイルサイズの膨張を抑えることができる。また、テキストファイルの文章が分かち書きであるか否かを自動的に判別するので、操作者がテキスト属性を入力する必要がなく、操作者の操作負担を軽減させることができる。以上、実施例4について説明した。
実施例5.
上述した実施例1乃至4では、形態素解析装置が漢字の表記、品詞、読み及びアクセントなどが登録された各単語辞書を用いて形態素解析処理を実行する一例を説明した。形態素解析にあっては、テキストファイルの文章内の文字列と部分一致する単語の全てを単語辞書から検出し、検出した単語の中から、品詞の繋がり、又は文字数の多い単語を優先するなどの法則を用いて尤もらしい単語の組み合わせを決定する。分かち書きを解析する場合には「付属語及び自立語の間に空白が存在する」という特例を設けることにより、解析精度を向上させることができる。そこで、実施の形態1における形態素解析装置は、品詞の繋がり具合を規定した評価値表を、予め一般文書用と分かち書き用の2種類準備し、準備した評価値表を適宜選択して形態素解析を行うようにしてもよい。実施例5では、かかる機能を有する形態素解析装置について説明する。
図16は本発明の一実施例における形態素解析装置の機能構成例を示す機能ブロック図である。実施例5における補助記憶装置14は、評価値表の記憶手段として、一般文章用の単語連結評価値表D4及び分かち書き用の単語連結評価値表D5を格納する。また、補助記憶装置14は、一般単語辞書D1(図示せず)を格納する。
図17は単語連結評価値表の登録内容を示す模式図である。一般文章用の単語連結評価値表D4及び分かち書き用の単語連結評価値表D5は、前方単語の品詞を縦軸方向に並べ、後方単語の品詞を横軸方向に並べた二次元座標平面からなり、各品詞が交わる欄に、2つの品詞が連結して自然言語をなす確率を示す評価値が登録されている。評価値は、操作者の経験又は統計的に求められたものが採用される。従って、評価値は、一意ではなく異なる値付けがなされる。
一般的な文章にあっては、助詞「を」の後に動詞が続く確率が非常に高いので、一般文章用の単語連結評価値表D4には、両品詞が交わる欄に高い評価値(例えば、1000)が登録されている(図17(a)参照)。また、助詞「を」の後に空白が続く確率が低いので、両品詞が交わる欄には、低い評価値(例えば、10)が登録されている。その他、助詞「は」の後には読点又は次文節が続く確率が高く、且つ文節の先頭に名詞がくる確率が非常に高いので、助詞「は」及び名詞が交わる欄には、高い評価値が登録されている。また、助詞「は」の後に空白が続く確率が低いので、該当欄には、低い評価値が登録されている。
これに対して、分かち書き文章においては、文節毎に空白によって区切られるため、文節の後には空白が続き、文節の終端には助詞「を」がくる。従って、助詞「を」及び空白が交わる欄には、高い評価値(例えば、10000)が登録されている(図17(b)参照)。また、助詞「を」及び動詞が交わる欄には、低い評価値(例えば、0)が登録されている。
実施例5におけるCPU10は、主記憶13から出力されたテキストファイルを受け付けるテキスト読込部101dと、主記憶13から出力されたテキスト属性情報を受け付けるテキスト属性読込部102dと、テキスト属性読込部102dが受け付けたテキスト属性情報に基づいてテキスト読込部101dが読み込んだテキストファイルの属性を判別するテキスト属性判別部103dと、テキスト属性判別部103dが判別したテキストの属性に応じて補助記憶装置14に格納してある単語連結評価値表のいずれかを選択する単語連結評価値表選択部108と、単語連結評価値表選択部108が選択した評価値表を用いて、テキスト読込部101dが読み込んだテキストファイルの文章を形態素解析する形態素解析部105dと、形態素解析部105dが実行した形態素解析の結果を生成して主記憶13へ出力する形態素解析結果出力部106dとして機能する。
実施例5における形態素解析装置は、補助記憶装置14に格納してあるプログラムに従って上述した機能を発揮させることにより、以下の処理を実行する。図18は本発明の一実施例における形態素解析装置が実行する形態素解析処理の手順を示すフローチャートである。
形態素解析装置のCPU10は、テキスト読込部101d及びテキスト属性読込部102dとして機能し、主記憶13からテキストファイル及びテキスト属性を受け付ける(S601)。CPU10は、テキスト属性判別部103dとして機能し、受け付けたテキスト属性が分かち書きを示しているか否かを判別する(S602)。CPU10は、受け付けたテキスト属性が分かち書きを示していないと判別した場合(S602でNO)、単語連結評価値表選択部108として機能し、補助記憶装置14から一般文章用の単語連結評価値表D4を選択し(S603)、ステップS605へ進む。
一方、CPU10は、受け付けたテキスト属性が分かち書きと示していると判別した場合(S602でYES)、単語連結評価値表選択部108として機能し、補助記憶装置14から分かち書き用の単語連結評価値表D5を選択し(S604)、選択した単語連結評価値表を受け付け、ステップS605へ進む。
CPU10は、一般文章用の単語連結評価値表D4を選択した場合(S603参照)、又は分かち書き用の単語連結評価値表D5を選択した場合(S604参照)、形態素解析部105dとして機能し、受け付けたテキストファイルから一文を抽出する(S605)。CPU10は、単語辞書から抽出した一文に部分一致する単語を単語候補として選抜する(S606)。
CPU10は、選択した単語連結評価値表に基づいて形態素解析を実行する(S607)。即ち、CPU10は、単語辞書から抽出した一文に部分一致した単語候補の中から、連結する単語の評価値が最大となるような組み合わせを選択する。なお、CPU10は、一般単語辞書D1内の単語の表記を用いて単語候補を選抜する。
CPU10は、形態素解析結果出力部106dとして機能し、実行した形態素解析の結果を主記憶13へ出力する(S608)。CPU10は、テキストファイル内の全文の処理が完了したか否かを判定し(S609)、全文の処理が完了していないと判定した場合(S609でNO)、ステップS605へ戻り、テキストファイルから次の一文を抽出して処理を繰り返す。
一方、CPU10は、全文の処理が完了したと判定した場合(S609でYES)、形態素解析処理を終了する。
このように、実施例5における形態素解析装置にあっては、品詞の繋がり具合を規定した評価値表を、予め一般文書用と分かち書き用の2種類準備し、準備した評価値表を適宜選択して形態素解析を行うことにより、例えば、「付属語及び自立語の間に空白が存在する」という条件のもと、形態素解析の処理を実行することができ、形態素解析の解析精度を向上することができる。以上、実施例5について説明した。
実施例6.
上述した実施例5では、操作者により入力されたテキスト属性に基づいて、テキストファイルの文章が分かち書きであるか否かを判別する一例を説明した。しかし、テキストファイルの形態素解析を多数実行する場合には操作者の負担が増大する。そこで、実施の形態1における形態素解析装置は、これに限定されるものでなく、テキストファイルの文章が分かち書きであるか否かを自動的に判別するようにしてもよい。実施例6では、かかる機能を有する形態素解析装置について説明する。
図19は本発明の一実施例における形態素解析装置の機能構成例を示す機能ブロック図である。実施例6における補助記憶装置14は、評価値表の記憶手段として、一般文章用の単語連結評価値表D4及び分かち書き用の単語連結評価値表D5を格納する。また、補助記憶装置14は、一般単語辞書D1(図示せず)を格納する。なお、実施例6における一般文章用の単語連結評価値表D4及び分かち書き用の単語連結評価値表D5の登録内容は、実施例5における単語連結評価値表と同様であるから、その説明を省略する。
実施例6におけるCPU10は、主記憶13から出力されたテキストファイルを受け付けるテキスト読込部101eと、テキスト読込部101eが受け付けたテキストファイルの属性を自動的に判別するテキスト属性判別部103eと、テキスト属性判別部103eが判別したテキストの属性に応じて補助記憶装置14に格納してある単語連結評価値表のいずれかを選択する単語連結評価値表選択部108と、単語連結評価値表選択部108が選択した単語連結評価値表を用いて、テキスト読込部101eが読み込んだテキストファイルの文章を形態素解析する形態素解析部105eと、形態素解析部105eが実行した形態素解析の結果を生成して主記憶13へ出力する形態素解析結果出力部106eとして機能する。
実施例6における形態素解析装置は、補助記憶装置14に格納してあるプログラムに従って上述した機能を発揮させることにより、以下の処理を実行する。図20は本発明の一実施例における形態素解析装置が実行する形態素解析処理の手順を示すフローチャートである。
形態素解析装置のCPU10は、テキスト読込部101eとして機能し、主記憶13からテキストファイルを受け付ける(S701)。CPU10は、テキスト属性判別部103eとして機能し、受け付けたテキストファイルの属性が分かち書きを示すか否かを判別するテキスト属性判別処理を実行する(S702)。なお、テキスト属性判別処理の手順は、実施例2におけるテキスト属性判別処理と同様であるから、対応するステップに同一番号を付してその説明を省略する。
CPU10は、テキスト属性判別処理の結果、テキスト属性が分かち書きを示しているか否かを判別する(S703)。その結果、CPU10は、テキスト属性が分かち書きを示していないと判別した場合(S703でNO)、単語連結評価値表選択部108として機能し、補助記憶装置14から一般文章用の単語連結評価値表D4を選択し(S704)、選択した一般文章用の単語連結評価値表D4を受け付ける。CPU10は、ステップS706へ進む。
一方、CPU10は、テキスト属性が分かち書きを示していると判別した場合(S703でYES)、単語連結評価値表選択部108として機能し、補助記憶装置14から分かち書き用の単語連結評価値表D5を選択し(S705)、選択した分かち書き用の単語連結用評価値表D5を受け付ける。CPU10は、ステップS706へ進む。
CPU10は、一般文章用の単語連結評価値表D4を選択した場合(S704参照)、又は分かち書き用の単語連結評価値表D5を選択した場合(S705参照)、形態素解析部105eとして機能し、受け付けたテキストファイルから一文を抽出する(S706)。CPU10は、単語辞書から抽出した一文に部分一致する単語を単語候補として選抜する(S707)。
CPU10は、選択した単語連結評価値表に基づいて形態素解析を実行する(S708)。即ち、CPU10は、単語辞書から抽出した一文に部分一致した単語候補の中から、連結する単語の評価値が最大となるような組み合わせを選択する。なお、CPU10は、一般単語辞書D1内の単語の表記を用いて単語候補を選抜する。
CPU10は、形態素解析結果出力部106eとして機能し、実行した形態素解析の結果を主記憶13へ出力する(S709)。CPU10は、テキストファイル内の全文の処理が完了したか否かを判定し(S710)、全文の処理が完了していないと判定した場合(S710でNO)、ステップS706へ戻り、テキストファイルから次の一文を抽出して処理を繰り返す。
一方、CPU10は、全文の処理が完了したと判定した場合(S710でYES)、形態素解析処理を終了する。
このように、実施例6における形態素解析装置にあっては、品詞の繋がり具合を規定した評価値表を、予め一般文書用と分かち書き用の2種類準備し、準備した評価値表を適宜選択して形態素解析を行うことにより、例えば、「付属語及び自立語の間に空白が存在する」という条件のもと、形態素解析の処理を実行することができ、形態素解析の解析精度を向上することができる。また、テキストファイルの文章が分かち書きであるか否かを自動的に判別するので、操作者がテキスト属性を入力する必要がなく、操作者の操作負担を軽減させることができる。以上、実施例6について説明した。
実施の形態2.
上述した実施の形態1では、形態素解析装置を有する情報処理装置が汎用コンピュータ又は個人向けコンピュータである一例を説明した。しかし、形態素解析は、音声合成などに広く利用できる。そこで、実施の形態2では、形態素解析装置を有する情報処理装置が利用者の音読練習を支援する装置である場合を説明する。
図21は本発明の一実施例における形態素解析装置を有する音読練習支援装置の機能構成例を示す機能ブロック図である。音読練習支援装置は、操作及び音読音声などを入力するための入力制御部21と、生成された合成音声又は指摘事項などを出力するための出力制御部22と、音読練習に用いる問題用のテキストファイルを格納する読上げテキスト格納部23と、上述した実施の形態1における形態素解析装置に相当する形態素解析装置24と、テキストファイルの文章の音素列を生成する音素列生成部25と、音素列に基づいて合成音声を生成する音声合成部26と、各音素のパラメータを格納する音響モデル格納部27と、正解のパラメータとの照合を行う音声照合部28と、照合結果に応じた指摘事項を作成する指摘事項作成部29と、これらを制御する主制御部20とを有する。各部は、バス(図示せず)を介して相互に接続されている。
入力制御部21は、キーボード、マウス又はマイクなどの入力装置(図示せず)と接続し、入力装置を介して利用者により入力された操作情報、朗読音声などを受け付けて主制御部20へ出力する。
出力制御部22は、液晶ディスプレイ、スピーカなどの出力装置(図示せず)と接続し、音読練習支援装置で処理した指摘事項などを出力装置へ出力する。
読上げテキスト格納部23は、音読練習に用いる問題用のテキストファイルを格納する。読上げテキスト格納部23は、主制御部20の指示に従い、格納してあるテキストファイルを読み出して、その文章などを出力装置に画面出力する。図22は問題表示画面の構成例を示す模式図である。読上げテキスト格納部23は、例えば、格納してあるテキストファイルから「くまさんは もりに いきました。」という文章を含むテキストファイルを読み出し、図22のように画面出力する。また、読上げテキスト格納部23は、主制御部20の指示に従い、読み出したテキストファイルを形態素解析装置24へ出力する。なお、音読練習用に用いる問題用のテキストファイルは、新規追加、更新又は削除される。
形態素解析装置24は、上述した実施の形態1(実施例1乃至6)における形態素解析装置に相当する。なお、形態素解析装置24の構成及び作用は、実施の形態1における形態素解析装置と同様であるから、「主記憶13」を「主制御20」に置換し、「補助記憶装置14」を「内蔵する記憶領域」に読み替えて、その他の対応する箇所に同一符号を付してその説明を省略する。形態素解析装置24は、主制御部20から出力されたテキストファイルを受け付け、受け付けたテキストファイルの属性が分かち書きであるか否かを判別し、判別結果に応じた単語辞書又は単語連結評価値表を読み出し、読み出した単語辞書などを用いて、テキストファイルの文章の形態素解析を実行する。その結果、音読練習支援装置は、分かち書きにされたテキストファイルを問題用に用いる場合であっても、利用者の朗読音声に対して正しい指摘事項を作成して出力することができる。主制御部20は、形態素解析装置24から出力された形態素解析の結果を受け付けて音素列生成部25へ出力する。
音素列生成部25は、形態素解析の結果に基づいてテキストファイルの文章の音素列情報を生成する。音素列生成部25は、例えば、上述のテキストファイルについての形態素解析の結果を受け付けた場合、「kuma’sanwa_morini_ikima’shita」という文字列が生成される。ここで「’」は、アクセントの位置を、「_」はアクセント句の境界を示している。
音声合成部26は、音素列生成部25が生成した音素列情報に従って合成音声を生成する。例えば、利用者が画面(図22(a)参照)上の「せんせいのよみかたをきく」のボタンを押下したとき、音声合成部26は、主制御部20の指示に従い、音素列生成部25が生成した音素列情報を受け付ける。音声合成部26は、受け付けた音素列情報に基づいて合成音声を生成し、生成した音声合成を出力制御部22を介して音声出力する。
音響モデル格納部27は、日本語の各音素の特徴を示す音響パラメータを格納し、主制御部20の制御に従い、適宜音響パラメータを音声照合部28へ出力する。
音声照合部28は、例えば、利用者が画面(図22(a)参照)上の「じぶんでよんでみる」のボタンを押下すると共に、入力装置を介して朗読音声を入力したとき、主制御部20の制御に従い、朗読音声から音響パラメータを抽出する。また、音声照合部28は、音素列生成部25が生成した音素列情報及び音響モデル格納部27から出力された音響パラメータを受け付け、これらの情報に基づいて正解となる音響パラメータを作成する。また、音声照合部28は、音読音声の音響パラメータと、作成した正解となる音響パラメータと照合することにより相違点を抽出する。音声照合部28は、例えば、利用者から「kuma’sanha」と誤読された朗読音声を受け付けた場合、「wa」とあるべきところ「ha」となっている点を抽出する。また、例えば、利用者により「iki_mashita」と誤読された朗読音声を受け付けた場合、境界が誤っている点を抽出する。音声照合部28は、照合結果を指摘事項作成部29へ出力する。
指摘事項作成部29は、照合結果を受け付け、受け付けた照合結果に基づいて利用者に指摘すべき事項を作成する。指摘事項作成部29は、例えば、「wa」を「ha」と誤読したことに対して「これは『わ』とよみます。」との指摘事項を作成して画面出力する(図22(b)参照)。また、指摘事項作成部29は、例えば、「iki_mashita」と誤読したことに対して「ここできってはいけません。」という指摘事項を作成して画面出力する(図22(b)参照)。指摘事項の作成は、例えば、多数の指摘事項を予め設定して登録しておき、照合結果に応じた指摘事項を選定するようにしてもよい。また、作成された指摘事項は、画面出力のみならず、音声出力であってもよい。利用者は、指摘事項作成部29からの指摘事項がなくなるまで、音読練習を繰り返すことができる。
例えば、利用者が画面(図22(a)参照)の「さきにすすむ」のボタンを押下したとき、主制御部20は、読上げテキスト格納部23から次の問題用のテキストファイルを読み出して、その文章を画面出力させる。一方、利用者が画面(図22(a)参照)の「まえにもどる」のボタンが押下したとき、主制御部20は、読上げテキスト格納物23から前回の問題用のテキストファイルを読み出して、その文章を画面出力させる。以上、実施の形態2について説明した。
上述した実施の形態に関し、更に以下の付記を開示する。
(付記1)自然言語の文章を形態素の列、あるいは一又は複数の形態素からなる単語の列に分割し、それぞれの品詞を判別する形態素解析を行う形態素解析装置において、
前記文章が一又は複数の形態素あるいは単語からなる文節毎に分かち書きにされているか否かを判別する判別手段と、
単語の表記とその品詞とを対応付けて格納する第1単語辞書記憶手段と、
単語の表記に含まれる漢字の全部又は一部を仮名で表す交書きの表記とその品詞とを対応付けて格納する第2単語辞書記憶手段と、
前記判別手段による判別結果に応じて前記第1単語辞書記憶手段及び/又は第2単語記憶手段を選択する選択手段と、
選択した単語辞書記憶手段に記憶してある表記及び品詞に基づいて前記文章の形態素解析を行う手段と
を備えることを特徴とする形態素解析装置。
(付記2)前記選択手段は、前記文章が分かち書きにされていないと前記判別手段が判別した場合に前記第1単語辞書記憶手段を選択し、前記文章が分かち書きにされていると前記判別手段が判別した場合に前記第1単語辞書記憶手段及び第2単語辞書記憶手段を選択するようにしてあることを特徴とする付記1に記載の形態素解析装置。
(付記3)自然言語の文章を形態素の列、あるいは一又は複数の形態素からなる単語の列に分割し、それぞれの品詞を判別する形態素解析を行う形態素解析装置において、
前記文章が一又は複数の形態素あるいは単語からなる文節毎に分かち書きにされているか否かを判別する判別手段と、
単語の表記とその品詞とを対応付けて格納する第1単語辞書記憶手段と、
該第1単語辞書記憶手段に記憶してある単語の表記を、該単語の表記に含まれる漢字の全部又は一部を仮名で表す交書きの表記に変換し、変換した交書きの表記とその品詞とを対応付けて格納する第3単語辞書記憶手段と、
前記判別手段による判別結果に応じて前記第1単語辞書記憶手段及び/又は第3単語辞書記憶手段を選択する選択手段と、
選択した単語辞書記憶手段に記憶してある表記及び品詞に基づいて前記文章の形態素解析を行う手段と
を備えることを特徴とする形態素解析装置。
(付記4)前記文章が分かち書きにされていないと前記判別手段が判別した場合、前記選択手段は、第1単語辞書記憶手段を選択し、
前記文章が分かち書きにされていると前記判別手段が判別した場合、
前記第3単語辞書記憶手段は、前記第1単語辞書記憶手段に記憶してある単語の表記を前記交書きの表記に変換し、変換した交書きの表記とその品詞とを対応付け、
前記選択手段は、前記第1単語辞書記憶手段及び第3単語辞書記憶手段を選択するようにしてあることを特徴とする付記3に記載の形態素解析装置。
(付記5)自然言語の文章を形態素の列、あるいは一又は複数の形態素からなる単語の列に分割し、それぞれの品詞を判別する形態素解析を行う形態素解析装置において、
前記文章が一又は複数の形態素あるいは単語からなる文節毎に分かち書きにされているか否かを判別する判別手段と、
品詞毎に分類された単語と該単語と異なる他の単語とが連結して自然言語の文章を成す確率を示す評価値を格納する第1単語連結評価値表記憶手段と、
品詞毎に分類された単語と他の単語とが連結して分かち書きの文章を成す確率を示す評価値を格納する第2単語連結評価値表記憶手段と、
前記判別手段による判別結果に応じて前記第1単語連結評価値表記憶手段及び/又は第2単語連結評価値表記憶手段を選択する選択手段と、
選択した単語辞書記憶手段に記憶してある評価値に基づいて前記文章の形態素解析を行う解析手段と
を備えることを特徴とする形態素解析装置。
(付記6)前記選択手段は、前記文章が分かち書きにされていないと前記判別手段が判別した場合に前記第1単語連結評価値表記憶手段を選択し、前記文章が分かち書きにされていると前記判別手段が判別した場合に前記第1単語連結評価値表記憶手段及び第2単語連結評価値表記憶手段を選択するようにしてあることを特徴とする付記5に記載の形態素解析装置。
(付記7)前記解析手段は、前記第1単語連結評価値表記憶手段及び/又は第2単語連結評価値表記憶手段に記憶してある評価値に基づいて評価値の合計が最大となるよう単語を組み合わせて前記文章の形態素解析を行うようにしてあることを特徴とする付記6に記載の形態素解析装置。
(付記8)前記文章が分かち書きにされているか否かを示す属性情報を受付ける手段を更に備え、
前記判別手段は、受付けた属性情報に基づいて文章が分かち書きにされているか否かを判別するようにしてあることを特徴とする付記1乃至7のいずれかに記載の形態素解析装置。
(付記9)前記判別手段は、
文章において区切られた単語の文字数の平均を算出する手段と、
算出した文字数の平均が所定の閾値未満であるか否かを判定する手段と、
算出した文字数の平均が所定の閾値未満であると判定した場合、前記文章が分かち書きにされていると判別する手段と
を備えることを特徴とする付記1乃至7のいずれかに記載の形態素解析装置。
(付記10)自然言語の文章を形態素、あるいは一又は複数の形態素からなる単語の列の列に分割し、それぞれの品詞を判別する形態素解析を行う形態素解析方法において、
前記文章が一又は複数の形態素あるいは単語からなる文節毎に分かち書きにされているか否かを判別し、
判別結果に応じて、単語の表記とその品詞とを対応付けて格納する第1単語辞書及び/又は単語の表記に含まれる漢字の全部又は一部を仮名で表す交書きの表記とその品詞とを対応付けて格納する第2単語辞書を選択し、
選択した単語辞書に格納されている表記及び品詞に基づいて前記文章の形態素解析を行うことを特徴とする形態素解析方法。
(付記11)前記文章が分かち書きにされていないと判別した場合に前記第1単語辞書を選択し、前記文章が分かち書きにされていると判別した場合に前記第1単語辞書及び第2単語辞書を選択することを特徴とする付記10に記載の形態素解析方法。
(付記12)自然言語の文章を形態素の列、あるいは一又は複数の形態素からなる単語の列に分割し、それぞれの品詞を判別する形態素解析を行う形態素解析方法において、
前記文章が一又は複数の形態素あるいは単語からなる文節毎に分かち書きにされているか否かを判別し、
判別結果に応じて、単語の表記とその品詞とを対応付けて格納する第1単語辞書及び/又は前記第1単語辞書内の単語の表記を、該単語の表記に含まれる漢字の全部又は一部を仮名で表す交書きの表記に変換し、変換した交書きの表記とその品詞とを対応付けて格納する第3単語辞書を選択し、
選択した単語辞書に格納されている表記及び品詞に基づいて前記文章の形態素解析を行うことを特徴とする形態素解析方法。
(付記13)前記文章が分かち書きにされていないと判別した場合に前記第1単語辞書を選択し、前記文章が分かち書きにされていると判別した場合に前記第3単語辞書を作成し、作成した第3単語辞書及び第1単語辞書を選択することを特徴とする付記12に記載の形態素解析方法。
(付記14)自然言語の文章を形態素の列、あるいは一又は複数の形態素からなる単語の列に分割し、それぞれの品詞を判別する形態素解析を行う形態素解析方法において、
前記文章が一又は複数の形態素あるいは単語からなる文節毎に分かち書きにされているか否かを判別し、
判別結果に応じて、品詞毎に分類された単語と該単語と異なる他の単語とが連結して自然言語の文章を成す確率が示す評価値を格納する第1単語連結評価値表及び/又は品詞毎に分類された単語と他の単語とが連結して分かち書きの文章を成す確率を示す評価値を格納する第2単語連結評価値表を選択し、
選択した単語辞書に格納されている評価値に基づいて前記文章の形態素解析を行うことを特徴とする形態素解析方法。
(付記15)前記文章が分かち書きにされていないと判別した場合に前記第1単語連結評価値表を選択し、前記文章が分かち書きにされていると判別した場合に前記第1単語連結評価値表及び第2単語連結評価値表を選択することを特徴とする付記14に記載の形態素解析方法。
(付記16)前記第1単語連結評価値表及び/又は第2単語連結評価値表に格納されている評価値に基づいて評価値の合計が最大となるよう単語を組み合わせて前記文章の形態素解析を行うことを特徴とする付記15に記載の形態素解析方法。
(付記17)前記文章が分かち書きにされているか否かを示す属性情報を受け付け、
受け付けた属性情報に基づいて文章が分かち書きにされているか否かを判別することを特徴とする付記10乃至16のいずれかに記載の形態素解析方法。
(付記18)文章において区切られた単語の文字数の平均を算出し、
算出した文字数の平均が所定の閾値未満であるか否かを判定し、
算出した文字数の平均が所定の閾値未満であると判定した場合、前記文章が分かち書きにされていると判別することを特徴とする付記10乃至16のいずれかに記載の形態素解析方法。
(付記19)コンピュータに、自然言語の文章を形態素の列、あるいは一又は複数の形態素からなる単語の列に分割し、それぞれの品詞を判別する形態素解析を行わせるコンピュータプログラムにおいて、
前記文章が一又は複数の形態素あるいは単語からなる文節毎に分かち書きにされているか否かを判別させるステップと、
判別結果に応じて、単語の表記とその品詞とを対応付けて格納する第1単語辞書及び/又は単語の表記に含まれる漢字の全部又は一部を仮名で表す交書きの表記とその品詞とを対応付けて格納する第2単語辞書を選択させるステップと、
選択した単語辞書に格納されている表記及び品詞に基づいて前記文章の形態素解析を行わせるステップと
をコンピュータに実行させることを特徴とするコンピュータプログラム。
(付記20)前記文章が分かち書きにされていないと判別した場合に前記第1単語辞書を選択させるステップと、
前記文章が分かち書きにされていると判別した場合に前記第1単語辞書及び第2単語辞書を選択させるステップと
をコンピュータに実行させることを特徴とする付記19に記載のコンピュータプログラム。
(付記21)コンピュータに、自然言語の文章を形態素の列、あるいは一又は複数の形態素からなる単語の列に分割し、それぞれの品詞を判別する形態素解析を行わせるコンピュータプログラムにおいて、
前記文章が一又は複数の形態素あるいは単語からなる文節毎に分かち書きにされているか否かを判別させるステップと、
判別結果に応じて、単語の表記とその品詞とを対応付けて格納する第1単語辞書及び/又は前記第1単語辞書内の単語の表記を、該単語の表記に含まれる漢字の全部又は一部を仮名で表す交書きの表記に変換し、変換した交書きの表記とその品詞とを対応付けて格納する第3単語辞書を選択させるステップと、
選択した単語辞書に格納されている表記及び品詞に基づいて前記文章の形態素解析を行わせるステップと
をコンピュータに実行させることを特徴とするコンピュータプログラム。
(付記22)前記文章が分かち書きにされていないと判別した場合に前記第1単語辞書を選択させるステップと、
前記文章が分かち書きにされていると判別した場合に前記第3単語辞書を作成し、作成した第3単語辞書及び第1単語辞書を選択させるステップと
をコンピュータに実行させることを特徴とする付記21に記載のコンピュータプログラム。
(付記23)コンピュータに、自然言語の文章を形態素の列、あるいは一又は複数の形態素からなる単語の列に分割し、それぞれの品詞を判別する形態素解析を行わせるコンピュータプログラムにおいて、
前記文章が一又は複数の形態素あるいは単語からなる文節毎に分かち書きにされているか否かを判別させるステップと、
判別結果に応じて、品詞毎に分類された単語と該単語と異なる他の単語とが連結して自然言語の文章を成す確率が示す評価値を格納する第1単語連結評価値表及び/又は品詞毎に分類された単語と他の単語とが連結して分かち書きの文章を成す確率を示す評価値を格納する第2単語連結評価値表を選択させるステップと、
選択した単語辞書に格納されている評価値に基づいて前記文章の形態素解析を行わせるステップと
をコンピュータに実行させることを特徴とするコンピュータプログラム。
(付記24)前記文章が分かち書きにされていないと判別した場合に前記第1単語連結評価値表を選択させるステップと、
前記文章が分かち書きにされていると判別した場合に前記第1単語連結評価値表及び第2単語連結評価値表を選択させるステップと
をコンピュータに実行させることを特徴とする付記23に記載のコンピュータプログラム。
(付記25)前記第1単語連結評価値表及び/又は第2単語連結評価値表に格納されている評価値に基づいて評価値の合計が最大となるよう単語を組み合わせて前記文章の形態素解析を行わせるステップを
コンピュータに実行させることを特徴とする付記24に記載のコンピュータプログラム。
(付記26)前記文章が分かち書きにされているか否かを示す属性情報を受け付け、受け付けた属性情報に基づいて文章が分かち書きにされているか否かを判別させるステップ
をコンピュータに実行させることを特徴とする付記19乃至25のいずれかに記載のコンピュータプログラム。
(付記27)文章において区切られた単語の文字数の平均を算出させるステップと、
算出した文字数の平均が所定の閾値未満であるか否かを判定させるステップと、
算出した文字数の平均が所定の閾値未満であると判定した場合、前記文章が分かち書きにされていると判別させるステップと
をコンピュータに実行させることを特徴とする付記19乃至25のいずれかに記載のコンピュータプログラム。
本発明の一実施例における形態素解析装置を有する情報処理装置の構成例を示すブロック図である。 本発明の一実施例における形態素解析装置の機能構成例を示す機能ブロック図である。 単語辞書の登録内容の一例を示す模式図である。 本発明の一実施例における形態素解析装置が実行する形態素解析処理の手順を示すフローチャートである。 本発明の一実施例における形態素解析装置の機能構成例を示す機能ブロック図である。 本発明の一実施例における形態素解析装置が実行する形態素解析処理の手順を示すフローチャートである。 本発明の一実施例における形態素解析装置が実行するテキスト属性判別処理の手順を示すフローチャートである。 本発明の一実施例における形態素解析装置が実行するテキスト属性判別処理の手順を示すフローチャートである。 本発明の一実施例における形態素解析装置の機能構成例を示す機能ブロック図である。 単語辞書の登録内容の一例を示す模式図である。 本発明の一実施例における形態素解析装置が実行する形態素解析処理の手順を示すフローチャートである。 本発明の一実施例における形態素解析装置が実行する形態素解析処理の手順を示すフローチャートである。 本発明の一実施例における形態素解析装置の機能構成例を示す機能ブロック図である。 本発明の一実施例における形態素解析装置が実行する形態素解析処理の手順を示すフローチャートである。 本発明の一実施例における形態素解析装置が実行する形態素解析処理の手順を示すフローチャートである。 本発明の一実施例における形態素解析装置の機能構成例を示す機能ブロック図である。 単語連結評価値表の登録内容を示す模式図である。 本発明の一実施例における形態素解析装置が実行する形態素解析処理の手順を示すフローチャートである。 本発明の一実施例における形態素解析装置の機能構成例を示す機能ブロック図である。 本発明の一実施例における形態素解析装置が実行する形態素解析処理の手順を示すフローチャートである。 本発明の一実施例における形態素解析装置を有する音読練習支援装置の機能構成例を示す機能ブロック図である。 問題表示画面の構成例を示す模式図である。 従来の形態素解析装置が用いる単語辞書の登録内容の一例を示す模式図である。
符号の説明
10 CPU
101 テキスト読込部
102 テキスト属性読込部
103 テキスト属性判別部
104 単語辞書選択部
105 形態素解析部
106 形態素解析結果出力部
107 単語辞書変換部
108 単語連結評価値表選択部
11 外部記憶装置
12 通信制御部
13 主記憶
14 補助記憶装置
15 入力制御部
16 出力制御部
17 バス
20 主制御部
21 入力制御部
22 出力制御部
23 読上げテキスト格納部
24 形態素解析装置
25 音素列生成部
26 音声合成部
27 音響モデル格納部
28 音声照合部
29 指摘事項作成部

Claims (10)

  1. 自然言語の文章を形態素の列、あるいは一又は複数の形態素からなる単語の列に分割し、それぞれの品詞を判別する形態素解析を行う形態素解析装置において、
    前記文章が一又は複数の形態素あるいは単語からなる文節毎に分かち書きにされているか否かを判別する判別手段と、
    単語の表記とその品詞とを対応付けて格納する第1単語辞書記憶手段と、
    単語の表記に含まれる漢字の全部又は一部を仮名で表す交書きの表記とその品詞とを対応付けて格納する第2単語辞書記憶手段と、
    前記判別手段による判別結果に応じて前記第1単語辞書記憶手段及び/又は第2単語記憶手段を選択する選択手段と、
    選択した単語辞書記憶手段に記憶してある表記及び品詞に基づいて前記文章の形態素解析を行う手段と
    を備えることを特徴とする形態素解析装置。
  2. 前記選択手段は、前記文章が分かち書きにされていないと前記判別手段が判別した場合に前記第1単語辞書記憶手段を選択し、前記文章が分かち書きにされていると前記判別手段が判別した場合に前記第1単語辞書記憶手段及び第2単語辞書記憶手段を選択するようにしてあることを特徴とする請求項1に記載の形態素解析装置。
  3. 自然言語の文章を形態素の列、あるいは一又は複数の形態素からなる単語の列に分割し、それぞれの品詞を判別する形態素解析を行う形態素解析装置において、
    前記文章が一又は複数の形態素あるいは単語からなる文節毎に分かち書きにされているか否かを判別する判別手段と、
    単語の表記とその品詞とを対応付けて格納する第1単語辞書記憶手段と、
    該第1単語辞書記憶手段に記憶してある単語の表記を、該単語の表記に含まれる漢字の全部又は一部を仮名で表す交書きの表記に変換し、変換した交書きの表記とその品詞とを対応付けて格納する第3単語辞書記憶手段と、
    前記判別手段による判別結果に応じて前記第1単語辞書記憶手段及び/又は第3単語辞書記憶手段を選択する選択手段と、
    選択した単語辞書記憶手段に記憶してある表記及び品詞に基づいて前記文章の形態素解析を行う手段と
    を備えることを特徴とする形態素解析装置。
  4. 前記文章が分かち書きにされていないと前記判別手段が判別した場合、前記選択手段は、第1単語辞書記憶手段を選択し、
    前記文章が分かち書きにされていると前記判別手段が判別した場合、
    前記第3単語辞書記憶手段は、前記第1単語辞書記憶手段に記憶してある単語の表記を前記交書きの表記に変換し、変換した交書きの表記とその品詞とを対応付け、
    前記選択手段は、前記第1単語辞書記憶手段及び第3単語辞書記憶手段を選択するようにしてあることを特徴とする請求項3に記載の形態素解析装置。
  5. 自然言語の文章を形態素の列、あるいは一又は複数の形態素からなる単語の列に分割し、それぞれの品詞を判別する形態素解析を行う形態素解析装置において、
    前記文章が一又は複数の形態素あるいは単語からなる文節毎に分かち書きにされているか否かを判別する判別手段と、
    品詞毎に分類された単語と該単語と異なる他の単語とが連結して自然言語の文章を成す確率を示す評価値を格納する第1単語連結評価値表記憶手段と、
    品詞毎に分類された単語と他の単語とが連結して分かち書きの文章を成す確率を示す評価値を格納する第2単語連結評価値表記憶手段と、
    前記判別手段による判別結果に応じて前記第1単語連結評価値表記憶手段及び/又は第2単語連結評価値表記憶手段を選択する選択手段と、
    選択した単語連結評価値表記憶手段に記憶してある評価値に基づいて前記文章の形態素解析を行う解析手段と
    を備えることを特徴とする形態素解析装置。
  6. 前記選択手段は、前記文章が分かち書きにされていないと前記判別手段が判別した場合に前記第1単語連結評価値表記憶手段を選択し、前記文章が分かち書きにされていると前記判別手段が判別した場合に前記第1単語連結評価値表記憶手段及び第2単語連結評価値表記憶手段を選択するようにしてあることを特徴とする請求項5に記載の形態素解析装置。
  7. 前記解析手段は、前記第1単語連結評価値表記憶手段及び/又は第2単語連結評価値表記憶手段に記憶してある評価値に基づいて評価値の合計が最大となるよう単語を組み合わせて前記文章の形態素解析を行うようにしてあることを特徴とする請求項6に記載の形態素解析装置。
  8. 前記文章が分かち書きにされているか否かを示す属性情報を受付ける手段を更に備え、
    前記判別手段は、受付けた属性情報に基づいて文章が分かち書きにされているか否かを判別するようにしてあることを特徴とする請求項1乃至7のいずれかに記載の形態素解析装置。
  9. 自然言語の文章を形態素の列、あるいは一又は複数の形態素からなる単語の列に分割し、それぞれの品詞を判別する形態素解析を行う形態素解析方法において、
    前記文章が一又は複数の形態素あるいは単語からなる文節毎に分かち書きにされているか否かを判別し、
    判別結果に応じて、単語の表記とその品詞とを対応付けて格納する第1単語辞書及び/又は単語の表記に含まれる漢字の全部又は一部を仮名で表す交書きの表記とその品詞とを対応付けて格納する第2単語辞書を選択し、
    選択した単語辞書に格納されている表記及び品詞に基づいて前記文章の形態素解析を行うことを特徴とする形態素解析方法。
  10. コンピュータに、自然言語の文章を形態素の列、あるいは一又は複数の形態素からなる単語の列に分割し、それぞれの品詞を判別する形態素解析を行わせるコンピュータプログラムにおいて、
    前記文章が一又は複数の形態素あるいは単語からなる文節毎に分かち書きにされているか否かを判別させるステップと、
    判別結果に応じて、単語の表記とその品詞とを対応付けて格納する第1単語辞書及び/又は単語の表記に含まれる漢字の全部又は一部を仮名で表す交書きの表記とその品詞とを対応付けて格納する第2単語辞書を選択させるステップと、
    選択した単語辞書に格納されている表記及び品詞に基づいて前記文章の形態素解析を行わせるステップと
    をコンピュータに実行させることを特徴とするコンピュータプログラム。
JP2008203479A 2008-08-06 2008-08-06 形態素解析装置、形態素解析方法及びコンピュータプログラム Expired - Fee Related JP5169602B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008203479A JP5169602B2 (ja) 2008-08-06 2008-08-06 形態素解析装置、形態素解析方法及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008203479A JP5169602B2 (ja) 2008-08-06 2008-08-06 形態素解析装置、形態素解析方法及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2010039864A JP2010039864A (ja) 2010-02-18
JP5169602B2 true JP5169602B2 (ja) 2013-03-27

Family

ID=42012324

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008203479A Expired - Fee Related JP5169602B2 (ja) 2008-08-06 2008-08-06 形態素解析装置、形態素解析方法及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP5169602B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012221457A (ja) * 2011-04-14 2012-11-12 Shogo Tsuchida 美しい言葉、日本語
US11934779B2 (en) * 2019-05-30 2024-03-19 Sony Group Corporation Information processing device, information processing method, and program

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0785057A (ja) * 1993-06-26 1995-03-31 Just Syst Corp 構文解析方法及び装置
JPH09190440A (ja) * 1996-01-11 1997-07-22 Brother Ind Ltd 機械翻訳装置

Also Published As

Publication number Publication date
JP2010039864A (ja) 2010-02-18

Similar Documents

Publication Publication Date Title
JP6493866B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US8346537B2 (en) Input apparatus, input method and input program
JP5535238B2 (ja) 情報処理装置
JP2001043221A (ja) 中国語単語分割装置
JP2008185805A (ja) 高品質の合成音声を生成する技術
JP4738847B2 (ja) データ検索装置および方法
JP2008243080A (ja) 音声を翻訳する装置、方法およびプログラム
JP5097802B2 (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
JP5169602B2 (ja) 形態素解析装置、形態素解析方法及びコンピュータプログラム
JP2004326367A (ja) テキスト解析装置及びテキスト解析方法、ならびにテキスト音声合成装置
JP2011007862A (ja) 音声認識装置、音声認識プログラム、および音声認識方法
JPH11238051A (ja) 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体
JP6197523B2 (ja) 音声合成装置、言語辞書修正方法及び言語辞書修正用コンピュータプログラム
KR101777141B1 (ko) 한글 입력 키보드를 이용한 훈민정음 기반 중국어 및 외국어 입력 장치 및 방법
JP2002207728A (ja) 表音文字生成装置及びそれを実現するためのプログラムを記録した記録媒体
JP3762300B2 (ja) テキスト入力処理装置及び方法並びにプログラム
JP2000353159A (ja) 表記・読み対応付け装置、表記・読み対応辞書作成方法、テキスト読み振り装置、テキスト読み振り方法および記録媒体
JP2021089300A (ja) 多言語音声認識およびテーマ−意義素解析方法および装置
JP2007086404A (ja) 音声合成装置
JP2010211004A (ja) 辞書作成装置、辞書作成システム、辞書作成方法および辞書作成プログラム
JP2007171275A (ja) 言語処理装置及び現後処理方法
JP2001166790A (ja) 書き起こしテキスト自動生成装置、音声認識装置および記録媒体
JP2003005776A (ja) 音声合成装置
JP2002023782A (ja) 音声合成装置および方法、情報処理装置、並びに、プログラム記録媒体
JP2006098552A (ja) 音声情報生成装置、音声情報生成プログラム及び音声情報生成方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110513

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121217

LAPS Cancellation because of no payment of annual fees