JP2010009355A - 電子機器、形態素複合方法及びそのプログラム - Google Patents

電子機器、形態素複合方法及びそのプログラム Download PDF

Info

Publication number
JP2010009355A
JP2010009355A JP2008168604A JP2008168604A JP2010009355A JP 2010009355 A JP2010009355 A JP 2010009355A JP 2008168604 A JP2008168604 A JP 2008168604A JP 2008168604 A JP2008168604 A JP 2008168604A JP 2010009355 A JP2010009355 A JP 2010009355A
Authority
JP
Japan
Prior art keywords
morpheme
speech
morphemes
combination
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008168604A
Other languages
English (en)
Inventor
Mototeru Kadokawa
元輝 角川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2008168604A priority Critical patent/JP2010009355A/ja
Publication of JP2010009355A publication Critical patent/JP2010009355A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】より一般化され網羅性がある形態素複合ルールを生成すること。
【解決手段】形態素複合ルール生成エンジン22は、サンプル文章から形態素解析された形態素と、その形態素の品詞との基本組み合わせ及びその部分集合の組み合わせを算出し、全組み合わせのうち、出現比率が所定の閾値以上である組み合わせを複合ルール候補として抽出する。形態素複合ルール生成エンジン22は、形態素解析後の他のサンプル文章に複合ルール候補を適用して形態素を複合し、その複合語の、インターネット上の検索エンジンによる完全一致検索数が所定数以上である場合に、その複合ルール候補を正式複合ルールとして確定する。
【選択図】図3

Description

本発明は、形態素解析を実行可能な電子機器、当該電子機器における形態素複合方法及びそのプログラムに関する。
従来から、文章を、意味を持つ最小単位(形態素)に分解して品詞等を判定する形態素解析という技術が知られている。各種電子機器は、例えば、この形態素解析により分解された形態素をキーワードとして各種情報を検索することが可能である。しかし、この形態素解析では、文章があまりに細かく分解されてしまい、キーワードとして機能しない場合がある。例えば、複数の名詞が複合された複合語がキーワードとして適切である場合には、各名詞が別個にキーワードとされて検索されると、所望の検索情報とは全く異なる情報が検索されてしまう。
そこで、電子機器が、複数の形態素を複合するという複合ルールをルールファイルとして予め記述しておき、文章を形態素解析した後、このルールファイルを参照して各形態素を複合することが考えられる。しかし、このルールファイルを人手で作成するのは手間がかかる上、ルールに漏れが生じる場合もある。また、作成済みのルールでは、世の中の言語環境の変化に追随しにくく、また多言語に対応するためには最初から編集しなおさなければならないという問題がある。
この問題に関連して、下記特許文献1には、自然言語文を形態素解析し、形態素解析用辞書に登録されていない単語及び該辞書に登録されていない名詞類の連続した複合語を抽出して、頻度の高いものを登録すべき登録候補単語と判定する単語登録装置が開示されている。
また、下記特許文献2には、入力されたテキストの文頭から文末までを形態素により接続されたグラフとして表した形態素ラティスを形成し、その形態素ラティスに含まれる形態素それぞれについて形態素出現確率を計算し、その形態素出現確率に対応してそれぞれの形態素の重要度を計算し、その重要度に基づき、形態素ラティスに含まれる単語それぞれについてその頻度情報を算出し、単語とその頻度情報とのペアを元とした頻度情報付き単語集合を生成する単語集合生成装置が記載されている。
特開平11−134334号公報(段落[0009]等) 特開2006−243976号公報(段落[0013]等)
しかしながら、上記特許文献1に記載の技術は、単に、連続する名詞からなる複合語を抽出し、その出現頻度が高ければその複合語を形態素解析用辞書に登録するのみであるため、網羅性にかけ、多様な文章に対応できない。
また、上記特許文献2に記載の技術は、形態素の頻度情報を算出することで、形態素解析時における複合語の単語同定の曖昧性を小さくすることを目的としており、複合語を構成する形態素の網羅的な複合ルールを生成することはできない。
以上のような事情に鑑み、本発明の目的は、より一般化され網羅性がある形態素複合ルールを生成することが可能な電子機器、当該電子機器における形態素複合ルール抽出方法及びそのプログラムを提供することにある。
上述の課題を解決するため、本発明の一の形態に係る電子機器は、形態素解析手段と、算出手段と、判定手段と、抽出手段とを有する。
上記形態素解析手段は、複数の異なるサンプル文字列をそれぞれ複数の形態素に分解し、当該分解された各形態素の品詞を判定する。
上記算出手段は、上記各サンプル文字列から分解された各形態素から、連続する第1の数かつ所定品詞の形態素で構成される形態素群をそれぞれ抽出し、当該抽出された各形態素群を構成する各形態素と当該各形態素の上記各品詞との組み合わせをそれぞれ算出する。
上記判定手段は、上記複数の形態素群から算出された組み合わせのうち、上記複数の形態素群間で共通する組み合わせの出現頻度が所定の閾値以上であるか否かを判定する。
上記抽出手段は、上記出現頻度が上記所定の閾値以上であると判定された場合に、上記共通する組み合わせを、任意の文字列に含まれる上記複数の形態素を複合するための形態素複合ルールとして抽出する。
ここで電子機器とは、例えばPC(Personal Computer)、テレビジョン装置、HDD(Hard Disk Drive)/DVD/BD(Blu-ray Disc)等の記録媒体を用いた記録再生装置、携帯型AV機器、携帯電話機、ゲーム機器、カーナビゲーション装置等の電化製品等である。上記サンプル文字列は、例えば電子機器がネットワークを介して取得するEPG(Electronic Program Guide)、Webページ、ドキュメントファイル等から抽出される文字列である。第1の数とは、例えば2つ、3つ程度であるが、これらに限られない。所定品詞とは、例えば名詞であるが、動詞や形容詞等であってもよい。上記任意の文字列とは、例えばEPGに含まれるものであるが、これに限られない。
ここで組み合わせとは、例えば上記形態素群が「形態素A」「形態素B」「形態素C」で構成され、各形態素の品詞が「品詞A」「品詞B」「品詞C」である場合、「品詞A」×「形態素B」×「形態素C」、「形態素A」×「品詞B」×「品詞C」等の組み合わせである。
上記構成により、複数のサンプル文字列から算出された形態素(の表記自体)と品詞との組み合わせのうち所定閾値以上の出現頻度を有するものが形態素複合ルールとして抽出される。したがって、単に連続する形態素の出現頻度を基に形態素複合ルールを抽出する場合に比べて、より一般化され網羅性がある形態素複合ルールを生成することができる。また、この形態素複合ルールは、形態素と品詞との組み合わせに基づくものであるため、言語環境の変化にも追随でき、あらゆる言語にも容易に対応することができる。
上記算出手段は、上記形態素群から算出された組み合わせに含まれる上記形態素及び上記品詞の部分集合の組み合わせを算出してもよい。
この場合、上記判定手段は、上記形態素群から算出された組み合わせ及び上記部分集合の組み合わせを基に、上記出現頻度を判定してもよい。
ここで部分集合の組み合わせとは、例えば上記形態素群が上記「形態素A」〜「形態素C」の各形態素で構成され、各形態素の品詞が上記「品詞A」〜「品詞C」である場合、「形態素A」×「品詞B」、「品詞B」×「形態素C」等の連続する部分集合の組み合わせである。これにより、各形態素群からより多くの形態素複合ルールを抽出することができる。
上記電子機器は、上記サンプル文字列とは異なる所定の文字列を上記形態素解析手段により複数の形態素に分解し、当該分解された形態素を、上記抽出された形態素複合ルールにより複合し、当該複合された形態素が、上記サンプル文字列及び上記所定の文字列以外の所定の電子ファイル中に第2の数以上含まれるか否かを判断することで、上記形態素複合ルールを、妥当な形態素複合ルールとして確定する確定手段をさらに具備してもよい。
ここで所定の文字列とは、上記サンプル文字列と類似分野の内容に関する文字列であるが、他の分野の文字列であってもよい。第2の数とは、1つの場合もあれば、複数の場合もあり、また上記電子ファイルの数によって変更される。
これにより、形態素複合ルールの妥当性が評価されるため、より実用性の高い形態素複合ルールを生成することができる。
上記確定手段は、上記複合された形態素が、上記所定の文字列中に上記第2の数以上含まれないと判断された場合に、上記所定の閾値を大きくして、上記形態素複合ルールを再度抽出するように上記生成手段及び抽出手段を制御してもよい。
これにより、形態素複合ルールが妥当性に欠けると判断された場合には、閾値を大きくして再度形態素複合ルールを抽出することで、形態素複合ルールの妥当性を高めることができる。
上記電子機器は、インターネット上の所定の検索サーバと通信可能な通信手段をさらに具備してもよい。
この場合、上記確定手段は、上記検索サーバにより、上記インターネット上から、上記複合された形態素が含まれるウェブページが上記第2の数以上検索されたか否かを判断することで、上記形態素複合ルールを確定してもよい。
これにより、インターネット上の検索エンジンを利用して、上記形態素複合ルールの妥当性を自動的かつ容易に判断することができる。
上記形態素解析手段は、上記各形態素の品詞の種別を判定してもよい。
この場合、上記算出手段は、上記形態素群に含まれる各形態素と、所定種別の上記各品詞との組み合わせを算出してもよい。
ここで品詞の種別とは、例えば品詞が名詞の場合、固有名詞、普通名詞、代名詞、数詞、地名、人名等の分類である。これにより、形態素複合ルールを、サンプル文字列中の形態素の品詞の種別を特定して抽出することができるため、当該形態素複合ルールをより実用性の高いものとすることができる。
上記電子機器は、複合手段と制御手段とをさらに具備してもよい。
上記複合手段は、上記任意の文字列を上記形態素解析手段により上記複数の形態素に分解し、当該複数の形態素を、上記形態素複合ルールにより複合する。
上記制御手段は、上記複合された複数の形態素を1つの形態素としてみなすように上記形態素解析手段を制御する。
これにより、形態素複合ルールにより複合された複数の形態素を1つの形態素とみなして、新たなサンプル文字列から再帰的に新たな形態素複合ルールを抽出することができ、より多くの実用的な複合ルールを生成することができる。
上記電子機器は、複合手段と、受信手段と、検索手段と、表示手段とをさらに具備してもよい。
上記複合手段は、上記任意の文字列を上記形態素解析手段により上記複数の形態素に分解し、当該複数の形態素を、上記形態素複合ルールにより複合する。
上記受信手段は、放送番組データ及び電子番組表データを含む放送信号を受信する。
上記検索手段は、上記複合された複数の形態素をキーワードとして、上記電子番組表データから、上記受信された放送番組データに関連する放送番組を検索する。
上記表示手段は、上記検索された放送番組に関する情報を表示する。
これにより、複合された形態素をキーワードとして放送番組を検索することで、検索精度を高めて、ユーザが視聴中の放送番組に関連する放送番組を適切に推薦することができる。
本発明の別の形態に係る形態素複合ルール抽出方法は、複数の異なるサンプル文字列をそれぞれ複数の形態素に分解し、当該分解された各形態素の品詞を判定することを含む。
上記各サンプル文字列から分解された各形態素から、連続する所定数かつ所定品詞の形態素で構成される形態素群がそれぞれ抽出され、当該抽出された各形態素群を構成する各形態素と当該各形態素の上記各品詞との組み合わせがそれぞれ算出される。
上記複数の形態素群から算出された組み合わせのうち、上記複数の形態素群間で共通する組み合わせの出現頻度が所定の閾値以上であるか否かが判定される。
上記出現頻度が上記所定の閾値以上であると判定された場合に、上記共通する組み合わせが、任意の文字列に含まれる上記複数の形態素を複合するための形態素複合ルールとして抽出される。
これにより、形態素と品詞との組み合わせに基づいて形態素複合ルールを抽出するため、単に連続する形態素の出現頻度を基に形態素複合ルールを抽出する場合に比べて、より一般化され網羅性のある形態素複合ルールを生成することができる。ここで所定数とは、例えば2つ、3つ程度であるが、これらに限られない。
本発明のまた別の形態に係るプログラムは、電子機器に、形態素解析ステップと、算出ステップと、判定ステップと、抽出ステップとを実行させるためのものである。
上記形態素解析ステップは、複数の異なるサンプル文字列をそれぞれ複数の形態素に分解し、当該分解された各形態素の品詞を判定する。
上記算出ステップは、上記各サンプル文字列から分解された各形態素から、連続する所定数かつ所定品詞の形態素で構成される形態素群をそれぞれ抽出し、当該抽出された各形態素群を構成する各形態素と当該各形態素の上記各品詞との組み合わせをそれぞれ算出する。
上記判定ステップは、上記複数の形態素群から算出された組み合わせのうち、上記複数の形態素群間で共通する組み合わせの出現頻度が所定の閾値以上であるか否かを判定する。
上記抽出ステップは、上記出現頻度が上記所定の閾値以上であると判定された場合に、上記共通する組み合わせを、任意の文字列に含まれる上記複数の形態素を複合するための形態素複合ルールとして抽出する。
以上のように、本発明によれば、より一般化され網羅性がある形態素複合ルールを生成することができる。
以下、本発明の実施の形態を図面に基づき説明する。
図1は、本発明の一実施形態に係るデジタルビデオレコーダの構成を示す図である。
同図に示すように、本実施形態に係るデジタルビデオレコーダ100(以下、DVR100と称する)は、表示手段としてのテレビジョン装置20(以下、TV20と称する)と接続されている。
このDVR100は、デジタルチューナ1、復調部2、デマルチプレクサ3、デコーダ4、記録再生部5、HDD(Hard Disk Drive)8、光ディスクドライブ9、通信部11、CPU(Central Processing Unit)12、ROM(Read Only Memory)13、RAM(Random Access Memory)14、操作入力部15、グラフィック制御部16、映像D/A(Digital/Analog)コンバータ17及び音声D/A(Digital/Analog)コンバータ18を有している。
デジタルチューナ1は、CPU12の制御に従って、図示しないアンテナを介してデジタル放送の特定のチャンネルを選局して、番組データを含む放送信号を受信する。この放送信号は、例えばMPEG−2 TSフォーマットで符号化されたMPEGストリームであるが、このフォーマットに限られるものではない。復調部2は、変調された当該放送信号を復調する。
デマルチプレクサ3は、多重化された放送信号を映像信号と音声信号とに分離する。デコーダ4は、デマルチプレクサ3で分離された、圧縮された映像信号と音声信号とをそれぞれデコードする。
記録再生部5は、記録部6及び再生部7を有する。記録部6は、デコーダ4によりデコードされ入力された映像信号及び音声信号を一時的に蓄積して、タイミングやデータ量を制御しながらHDD8や光ディスクドライブ9に出力して記録させる。再生部7は、HDD8や光ディスクに記録された映像コンテンツの映像信号及び音声信号を読み出し、タイミングやデータ量を制御しながらデコーダ4へ出力して再生させる。
HDD8は、デジタルチューナ1を介して受信した放送番組データや、通信部11によりインターネット等のネットワーク50を介して受信される映像コンテンツ、デジタルカメラや各種記録媒体から各種インタフェース(図示せず)を介して入力した各種映像コンテンツ、静止画コンテンツ、音楽コンテンツ等のあらゆるコンテンツを内蔵のハードディスクに記憶する。これらの記憶されたコンテンツが再生される際には、HDD8は、これらのデータを上記ハードディスクから読み出し、記録再生部5へ出力する。
またHDD8は、後述する形態素解析に用いるプログラム及びサンプル文章等のデータ、形態素複合処理に用いるプログラム、形態素複合ルールデータ等も記憶する。さらにHDD8は、アプリケーション等の各種プログラム、その他のデータ等を記憶する場合もある。これらのプログラムやデータは、それらの実行時及び参照時に、CPU12の指令によりHDD8から読み出され、RAM14へ展開される。
光ディスクドライブ9は、光ディスク10を挿入可能な挿入部を有し、上記HDD8と同様に、当該挿入された光ディスク10に上記番組コンテンツ等の各種データを記録し、また記録されたデータを読み出すことが可能である。光ディスク10としては、例えばBD(BD−ROM)、DVD、CD等が挙げられる。上記各種プログラムは、これら光ディスク10等の可般性の記録媒体に記録され、光ディスクドライブ9によりDVR100にインストールされてもよい。
通信部11は、上記ネットワーク50に接続してTCP/IP(Transmission Control Protocol / Internet Protocol)等のプロトコルによりネットワーク50上の他の装置とデータのやり取りを行うためのネットワークインタフェースである。
CPU12は、必要に応じてRAM14等にアクセスし、記録再生部5によるデータの記録及び再生処理等、DVR100の各ブロックの処理を統括的に制御する。
上記放送信号には、EPG(電子番組表)を表示するためのデータ等を伝送するためのSI(Service Information)信号等が含まれている。例えばARIB(Association of Radio Industries and Broadcast)規格では、SI信号は、番組の名称や放送日時、放送内容等、番組に関連する情報を含むEIT(Event Information Table)を含んでいる。DVR100は、SI信号からEITを抽出し、主にこのEITに含まれる情報を基にEPGを作成する。CPU12は、このEPG作成処理も制御する。なお、DVR100は、デジタルチューナ1が受信した放送信号からではなく、ネットワーク50上から通信部11によりEPGに関するデータを取得するようにしても構わない。
ROM13は、CPU12に実行させるOS、プログラムや各種パラメータなどのファームウェアが固定的に記憶されている不揮発性のメモリである。RAM14は、CPU12の作業用領域等として用いられ、OSやプログラム、処理データ等を一時的に保持するメモリである。
操作入力部15は、例えば複数のキーを有するリモートコントローラ19(以下、リモコン19と称する)から、ユーザの操作による各種設定値や指令を入力してCPU12へ出力する。もちろん、操作入力部15は、リモコン19によらずに、DVR100に接続されたキーボードやマウス、DVR100に実装されたスイッチ等で構成されていても構わない。
グラフィック制御部16は、デコーダ4から出力された映像信号やCPU12から出力されるEPGデータ等にOSD(On Screen Display)処理等のグラフィック処理を施し、TV20に表示させるための映像信号を生成する。
映像D/Aコンバータ17は、上記グラフィック制御部16から入力されたデジタル映像信号をアナログ映像信号に変換して、TV20へ出力する。
音声D/Aコンバータ18は、上記デコーダ4から入力されたデジタル音声信号をアナログ音声信号に変換して、TV20へ出力する。
TV20は、上記アナログ映像信号を表示部(図示せず)に表示し、上記アナログ音声信号をスピーカ(図示せず)から出力する。スピーカはTV20に内蔵されていてもよいし、TV20またはDVR100に外部接続されていてもよい。
図2は、DVR100で実行されるソフトウェア及び参照されるデータベースの構成を示した図である。
同図に示すように、DVR100は、ソフトウェアとして、形態素解析エンジン21、形態素複合ルール生成エンジン22、形態素複合エンジン23を有し、データベースとして、サンプル文章DB24及び形態素複合ルールDB25を有する。
形態素解析エンジン21は、サンプル文章DB24から入力された文章を形態素に分解し、各形態素の品詞を判定する。また、形態素解析エンジン21は、当該各形態素の品詞の種別も判定する。品詞の種別とは、例えば品詞が名詞の場合、固有名詞、普通名詞、代名詞、数詞、地名、人名等の分類である。
形態素複合ルール生成エンジン22は、形態素解析エンジン21により分解された形態素及びそれらの品詞を基に、形態素複合ルールを生成する。
形態素複合エンジン23は、生成された形態素複合ルールに基づいて、任意の文章の形態素を複合する。
サンプル文章DB24は、形態素解析エンジンにより処理されるためのサンプル文章を記憶する。このサンプル文章は、例えば1ヶ月等の所定期間にEPGから取得されたものであってもよいし、例えば新聞、雑誌、小説等の文章データを含む電子ファイルであってもよい。
形態素複合ルールDB25は、上記生成された形態素複合ルールを、当該ルールが生成される度に記憶する。この形態素複合ルールは、どのような形態素(の表記)及び品詞の連続を複合するかを定めるものであり、形態素複合時に、形態素複合エンジン23に参照される。
上記各エンジン及びデータベースは、例えばROM13またはHDD8に格納される。
次に、以上のように構成されたDVR100の動作について説明する。以下に説明する動作は、その動作主体に関わらず、全てDVR100のCPU12の制御下で実行される。それらの各動作は、ハードウェアの動作である場合もあれば、ハードウェアと協働するソフトウェア(プログラム)の動作である場合もある。
まず、形態素複合ルールの生成処理について説明する。この形態素複合ルールの生成処理は、複合ルール候補生成処理と、複合ルール候補評価及び正式複合ルール確定処理に分かれる。まず、形態素複合ルール候補の生成処理について説明する。
図3は、複合ルール候補生成処理の流れを示したフローチャートである。
同図に示すように、まず、DVR100のCPU12は、形態素複合ルールの候補を作成するための大量のサンプル文章を、サンプル文章DB24から形態素解析エンジン21に入力する(ステップ31)。このサンプル文章は、実際に解析される文章の分野と同一または類似の分野の文章が望ましい。例えば、DVR100が実際にEPG内の文章を解析するのであれば、上記サンプル文章としても、EPG内から取得されたものが用いられる。もちろん、サンプル文章は、EPG以外にも、他の電子ファイル等から取得されてもよい。
続いて、形態素解析エンジン21は、上記入力されたサンプル文章を、形態素解析により複数の形態素に分解し、分解された各形態素の品詞及びその種別を判定する(ステップ32)。
続いて、形態素複合ルール生成エンジン22は、上記分解された各形態素から、予め定義したパターンに合致する形態素群を抽出する(ステップ33)。ここで、予め定義したパターンとは、例えば「名詞の2個以上の連続する形態素」である。
例えば、以下の文章A及び文章Bが入力され、形態素解析された場合を想定する。
文章A:「昨日、上野公園会館へ行った。」
文章B:「明日は、大阪公園に行く予定だ。」
この場合、文章Aからは、「上野公園会館」が形態素群として抽出され、文章Bからは、「大阪公園」が形態素群として抽出される。
形態素群「上野公園会館」及び「大阪公園」は、以下の形態素及び品詞から構成される。
上野(名詞/固有名詞/地名)|公園(名詞/普通名詞)|会館(名詞/普通名詞)
大阪(名詞/固有名詞/地名)|公園(名詞/普通名詞)。
続いて、形態素複合ルール生成エンジン22は、上記抽出された形態素群の数だけ繰り返されるループ処理(ループA)を開始する(ステップ34)。このループAにおいて、形態素複合ルール生成エンジン22は、抽出された形態素群から、形態素(の表記)及び品詞の全ての組み合わせを算出する(ステップ35)。本実施形態では、この組み合わせを基本組み合わせと称する。算出された基本組み合わせ結果は、例えばRAM14に一時的に格納される。
図4は、この基本組み合わせについて説明する図である。
例えば、形態素群の各構成形態素及び品詞を、
(形態素1:品詞1)×(形態素2:品詞2)×・・・×(形態素n:品詞n)
とすると、この形態素群からは、図4に示すように2のn乗通りの基本組み合わせが算出される。
具体的には、例えば、上記形態素群「上野公園会館」は、「上野」「公園」「会館」の3つの形態素で構成され、n=3であるため、この形態素群からは、2=8個の以下の基本組み合わせが算出される。
形態素×形態素×形態素・・・上野|公園|会館
品詞 ×形態素×形態素・・・(名詞/固有名詞/地名)|公園|会館
形態素×品詞 ×形態素・・・上野|(名詞/普通名詞)|会館
形態素×形態素×品詞 ・・・上野|公園|(名詞/普通名詞)
形態素×品詞 ×品詞 ・・・上野|(名詞/普通名詞)|(名詞/普通名詞)
品詞 ×形態素×品詞 ・・・(名詞/固有名詞/地名)|公園|(名詞/普通名詞)
品詞 ×品詞 ×形態素・・・(名詞/固有名詞/地名)|(名詞/普通名詞)|会館
品詞 ×品詞 ×品詞・・・(名詞/固有名詞/地名)|(名詞/普通名詞)|(名詞/普通名詞)
また、上記形態素群「大阪公園」は、「大阪」「公園」の2つの形態素で構成され、n=2であるため、この形態素群からは、2=4個の以下の基本組み合わせが算出される。
形態素×形態素・・・大阪|公園
形態素×品詞 ・・・大阪|(名詞/普通名詞)
品詞 ×形態素・・・(名詞/固有名詞/地名)|公園
品詞 ×品詞 ・・・(名詞/固有名詞/地名)|(名詞/普通名詞)
続いて、形態素複合ルール生成エンジン22は、上記算出された基本組み合わせの数だけ繰り返されるループ処理(ループB)を開始する(ステップ36)。このループBにおいて、形態素複合ルール生成エンジン22は、各基本組み合わせの部分集合の組み合わせを算出する(ステップ37)。算出された部分集合の組み合わせ結果は、例えばRAM14に一時的に格納される。
図5は、この部分集合の組み合わせについて説明する図である。
同図に示すように、上記図4の各基本組み合わせからは、それぞれn−1通り、n−2通り、・・・の組み合わせが順次算出され、基本組み合わせを含めて合計でΣ(n−i)通りの組み合わせが算出される。
具体的には、例えば、上記形態素群「上野公園会館」の全ての基本組み合わせからは、下記のような8個の部分集合の組み合わせが算出される。ここで、各形態素及び品詞を、それぞれ「形態素1」「形態素2」「形態素3」「品詞1」「品詞2」「品詞3」と表現する。
形態素1×形態素2 ・・・上野|公園
形態素2×形態素3・・・ 公園|会館
形態素1×形態素2 ・・・上野|公園
形態素2×品詞3 ・・・ 公園|(名詞/普通名詞)
形態素1×品詞2 ・・・上野|(名詞/普通名詞)
品詞2 ×形態素3・・・ (名詞/普通名詞)|会館
形態素1×品詞2 ・・・上野|(名詞/普通名詞)
品詞2 ×品詞3 ・・・ (名詞/普通名詞)|(名詞/普通名詞)
品詞1 ×形態素2 ・・・(名詞/固有名詞/地名)|公園
形態素2×形態素3・・・ 公園|会館
品詞1 ×形態素2 ・・・(名詞/固有名詞/地名)|公園
形態素2×品詞3 ・・・ 公園|(名詞/普通名詞)
品詞1 ×品詞2 ・・・(名詞/固有名詞/地名)|(名詞/普通名詞)
品詞2 ×形態素3・・・ (名詞/普通名詞)|会館
品詞1 ×品詞2 ・・・(名詞/固有名詞/地名)|(名詞/普通名詞)
品詞2 ×品詞3 ・・・ (名詞/普通名詞)|(名詞/普通名詞)
本実施形態における部分集合の組み合わせとは、基本組み合わせに含まれる連続する形態素及び品詞の組み合わせである。連続しない形態素及び品詞の組み合わせ(例えば、上記の例における品詞1×形態素3・・・(名詞/固有名詞/地名)×会館)は、実際サンプル文章にも存在せず、複合ルールとして生成しても意味を成さない場合が多いと考えられるため、除外される。
形態素複合ルール生成エンジン22は、この部分集合の組み合わせの算出処理を、上記基本組み合わせの数だけ繰り返す(ステップ38)。このように、基本組み合わせのみならず、基本組み合わせの部分集合の組み合わせも算出することで、1つの形態素群からより多くの複合ルールを抽出することができる。
ここで、形態素複合ルール生成エンジン22は、形態素のみから構成される組み合わせ及び品詞のみから構成される組み合わせは、基本組み合わせ及び部分集合の組み合わせから除外する。すなわち、例えば上記形態素群「上野公園会館」から算出される上記組み合わせのうち、形態素のみの組み合わせ「上野|公園|会館」及び品詞のみの組み合わせ「(名詞/固有名詞/地名)|(名詞/普通名詞)|(名詞/普通名詞)」は除外される。
これは、形態素のみの組み合わせは、複合語そのものであり、他の文章への応用性に欠けるからであり、品詞のみの組み合わせは、想定されるパターンが多すぎて、複合ルールとして機能しない可能性があるからである。
続いて、形態素複合ルール生成エンジン22は、上記基本組み合わせ及び部分集合の組み合わせの全組み合わせ結果をまとめる(ステップ39)。
図6は、n=3の場合における全組み合わせ結果を示した図である。同図に示すように、上記形態素群「上野公園会館」のようなn=3の形態素群からは、基本組み合わせと部分集合の組み合わせとを合わせて24個の組み合わせが算出される。
続いて、形態素複合ルール生成エンジン22は、自身が上記ループAの1回目のループ処理を実行しているか否かを判断する(ステップ40)。すなわち、形態素複合ルール生成エンジン22は、自身が、1番目の形態素群についての処理を実行しているか否かを判断する。
形態素複合ルール生成エンジン22は、ループAの1回目のループであると判断した場合(Yes)には、上記全組み合わせ結果の出現回数を集計するための集計リストを作成する(ステップ41)。当該集計リストでは、この時点では、上記基本組み合わせ及び部分集合の組み合わせのそれぞれについて、それらの出現回数が1回に設定される。
形態素複合ルール生成エンジン22は、ループAの2回目以降のループであると判断した場合(No)、すなわち、自身が2番目以降の形態素群についての処理を実行していると判断した場合には、その回のループで算出された全組み合わせと、集計リストとを比較する。そして、形態素複合ルール生成エンジン22は、当該比較の結果、その回のループで算出された組み合わせの中に、集計リスト内の組み合わせと合致する組み合わせがあった場合には、その合致する組み合わせの出現回数を集計リストに加算する(ステップ42)。例えば、2回目のループで合致する組み合わせがあった場合には、出現回数は2回に更新される。また、形態素複合ルール生成エンジン22は、集計リスト内の組み合わせと合致する組み合わせがない場合には、その組み合わせを出現リストに追加し、その出現回数を1回に設定する。
形態素複合ルール生成エンジン22は、以上の処理を、全てのサンプル文章から抽出された全ての形態素群について繰り返す(ステップ43)。
上記集計リストは、上記EPGから例えば1ヶ月等の所定期間、継続して作成され、形態素複合ルール候補のリストとして、ROM13またはHDD8に記憶される。
次に、複合ルール候補の評価及び正式複合ルール確定処理について説明する。
図7は、複合ルール候補評価及び正式複合ルール確定処理の流れを示したフローチャートである。この各処理は、例えば、上記集計リストが1ヶ月等の所定期間蓄積されたタイミングで実行される。
同図に示すように、形態素複合ルール生成エンジン22は、上記サンプル文章DB24から、複合ルール評価用のサンプル文章を形態素解析エンジン21に入力する(ステップ71)。この評価用のサンプル文章は、例えば上記形態素複合ルール候補生成時に用いられたサンプル文章と同一または類似の分野における別の文章であり、例えばEPGから取得されたものである。
続いて、形態素複合ルール生成エンジン22は、上記集計リストから、各組み合わせの出現比率を算出し、当該出現比率が閾値m(%)以上の組み合わせのみを、複合ルール候補として抽出する(ステップ72)。ここで、出現比率は、集計リスト中の全組み合わせの総数に対する、組み合わせの出現回数で表される。また、所定の閾値mは、例えば30%、20%程度であるが、これに限られるものではない。
続いて、形態素解析エンジン21は、上記入力された評価用サンプル文章を、複数の形態素に分解し、各形態素の品詞を判定する(ステップ73)。続いて、形態素複合エンジン23は、上記分解された複数の形態素を、上記抽出された複合ルール候補を適用して複合する(ステップ74)。
続いて、形態素複合ルール生成エンジン22は、上記通信部11によりインターネット上の検索エンジン(検索サイト)に接続し、上記複合処理により複合された複数の形態素からなる複合語をキーワードとして、当該検索エンジンに検索処理を実行させる(ステップ74)。
続いて、形態素複合ルール生成エンジン22は、当該検索エンジンにより、上記複合語に完全に一致する文字列を含むウェブページが所定数以上検索されたか否かを判断する(ステップ75)。所定数とは、検索エンジンにもよるが、例えば数百、数千、数万程度である。また形態素複合ルール生成エンジン22は、この所定数を、例えば複合語に含まれる形態素の数に応じて、またはユーザ入力に基づいて、可変してもよい。
上記完全一致数が所定数以上である場合(Yes)、形態素複合ルール生成エンジン22は、上記適用した複合ルール候補を、正式複合ルールとして確定する(ステップ77)。この正式複合ルールは、上記形態素複合ルールDB25へ記憶される。
上記完全一致数が所定数未満である場合(No)、形態素複合ルール生成エンジン22は、上記閾値mの値を大きく設定しなおし(ステップ76)、上記ステップ72以降の処理を繰り返し実行させる。例えば、mの初期値が20%であった場合、再設定後の閾値mは、25%に設定されるが、この数値に限られるものではない。
以上の処理を繰り返すことで、任意の文章の形態素に対応し得る妥当な複合ルールが生成される。
次に、上記生成された形態素複合ルールを適用した形態素複合処理について説明する。
図8は、当該形態素複合処理の流れを示したフローチャートである。同図においては、上記形態素複合ルールを適用して複合された複合語をキーワードとして、EPG内から番組検索を実行する場合を例に説明する。
同図に示すように、まず、形態素複合エンジン23は、例えば複合処理当日のEPG中の、現在選局中の番組のデータに含まれる文章(文字列)を抽出し(ステップ81)、形態素解析エンジン21に入力する(ステップ81)。続いて、形態素解析エンジン21は、当該EPG中の文章を複数の形態素に分解し、各形態素の品詞を判定する(ステップ82)。
続いて、形態素複合エンジン23は、分解された形態素を、上記正式複合ルールを適用して複合する(ステップ83)。ここで、形態素が複合された複合語の品詞は、構成される各形態素の品詞に基づいて判断される。例えば、形態素複合エンジン23は、複合語を構成する各形態素のうち、最後の形態素の品詞を複合語の品詞と判断する。
続いて、CPU12は、例えばユーザの操作に基づいて、上記複数の形態素が複合された複合語及びその他の名詞を、番組検索のキーワードとしてTV20に表示させる(ステップ84)。
図9は、番組検索のキーワード表示画面の例を示した図である。
同図に示すように、TV20の画面左側には、現在選局中の番組が表示され、画面右端には、当該番組に関する上記EPGデータから、上記形態素複合処理により複合されたものを含むキーワード91が表示される。このキーワード91は、例えば人名、地名、施設名、時事用語等である。
続いて、この表示されたキーワード91の中から、例えばユーザが上記リモコン19の操作により選択したキーワードに基づいて、番組検索処理が実行される。すなわち、CPU12は、ユーザにより選択されたキーワードを基に、現在選局中の番組以外の番組に関する情報を、当日または将来のEPGから検索する(ステップ85)。
図10は、当該番組検索結果の表示画面の例を示した図である。
同図に示すように、上記図9中のキーワードBが選択された場合には、当該キーワードBに合致するEPG情報を有する他の番組情報101がTV20に表示される(ステップ86)。CPU12は、ユーザの操作に基づき、当該検索された番組の選局処理や録画処理等を実行する。
以上の処理により、ユーザは、現在視聴中の番組に関連する番組を、上記複合処理を経た適切なキーワードを基に検索することができる。
以上説明したように、本実施形態によれば、DVR100は、サンプル文章中の形態素と、その形態素の品詞との組み合わせに基づいて、形態素複合ルールを生成する。したがって、形態素の表記同士の組み合わせを解析して単に形態素を複合する場合に比べて、より一般的で網羅性のある形態素複合ルールを生成することができる。また、この形態素複合ルールは、形態素の表記の組み合わせを特定するものではないため、言語環境の変化にも追随でき、あらゆる言語にも容易に対応することができる。
本発明は上述の実施形態にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。
上述の実施形態において、形態素複合エンジン23は、上記形態素が複合された複合語を、新たな品詞の1つの形態素として、形態素解析エンジン21に登録してもよい。これにより、1つの形態素とみなされた複合語と他の形態素の品詞との組み合わせ、または、複合語の品詞と他の形態素との組み合わせに基づいて、新たな複合ルールが抽出される。すなわち、1つの形態素としてみなされた複合語を用いて再帰的な複合ルール抽出処理が可能となり、複合語の幅を広げることができる。
上述の実施形態においては、インターネット上の検索エンジンの検索結果により複合ルール候補の妥当性が判断された。しかし、検索エンジンの代わりに、上記HDD8等に記憶された新聞、雑誌、小説等の所定の電子ファイル中からの検索結果により複合ルール候補の妥当性が判断されてもよい。また、ユーザや設計者が検索結果を実際に判断し、当該判断結果を形態素複合ルール生成エンジン22に入力してもよい。
上述の実施形態では、形態素複合ルール生成エンジン22は、形態素のみから構成される組み合わせ及び品詞のみから構成される組み合わせは、基本組み合わせから除外した。しかし、これらの組み合わせは除外されなくても構わない。
上述の実施形態において、形態素複合ルール候補抽出時に用いられる出現比率は、集計リスト中の全組み合わせの総数に対する、組み合わせの出現回数として算出された。しかし、この出現比率は、上記サンプル文章の総数に対する、組み合わせが出現した文の数として算出されてもよい。
上述の実施形態において、出現比率に関する閾値mは、検索エンジンによる完全一致数が所定数以下の場合には大きく設定しなおされた。しかし、このmの再設定により、上記完全一致数が極端に増加した場合には、形態素複合ルール生成エンジン22は、以前のmと、再設定後のmの中間値(すなわち、より小さい値)を新たなmとして設定してもよい。これにより、複合ルールとなり得る複合ルールを見逃すことを防ぐことができる。
上述の実施形態においては、形態素と名詞の組み合わせに基づいて形態素複合ルールが抽出されたが、動詞や形容詞等、他の品詞の組み合わせに基づいて形態素複合ルールが抽出されても構わない。
上述の実施形態においては、本発明をDVRに適用した例を示した。しかし、本発明は、DVR以外にも、例えばPC、テレビジョン装置、携帯型AV機器、携帯電話機、ゲーム機器、カーナビゲーション装置等のあらゆる電子機器に適用可能である。
本発明の一実施形態に係るDVRの構成を示す図である。 本発明の一実施形態に係るDVRで実行されるソフトウェア及び参照されるデータベースの構成を示した図である。 本発明の一実施形態における複合ルール候補生成処理の流れを示したフローチャートである。 本発明の一実施形態における基本組み合わせを説明する図である。 本発明の一実施形態における部分集合の組み合わせを説明する図である。 本発明の一実施形態におけるn=3の場合の全組み合わせ結果を示した図である。 本発明の一実施形態における複合ルール候補評価及び正式複合ルール確定処理の流れを示したフローチャートである。 本発明の一実施形態における形態素複合処理の流れを示したフローチャートである。 本発明の一実施形態における番組検索のキーワード表示画面の例を示した図である。 本発明の一実施形態における番組検索結果の表示画面の例を示した図である。
符号の説明
8…HDD
11…通信部
12…CPU
13…ROM
14…RAM
15…操作入力部
19…リモートコントローラ
20…テレビジョン装置
21…形態素解析エンジン
22…形態素複合ルール生成エンジン
23…形態素複合エンジン
24…サンプル文章DB
25…形態素複合ルールDB
50…ネットワーク
91…キーワード
100…デジタルビデオレコーダ
101…他の番組情報

Claims (10)

  1. 複数の異なるサンプル文字列をそれぞれ複数の形態素に分解し、当該分解された各形態素の品詞を判定する形態素解析手段と、
    前記各サンプル文字列から分解された各形態素から、連続する第1の数かつ所定品詞の形態素で構成される形態素群をそれぞれ抽出し、当該抽出された各形態素群を構成する各形態素と当該各形態素の前記各品詞との組み合わせをそれぞれ算出する算出手段と、
    前記複数の形態素群から算出された組み合わせのうち、前記複数の形態素群間で共通する組み合わせの出現頻度が所定の閾値以上であるか否かを判定する判定手段と、
    前記出現頻度が前記所定の閾値以上であると判定された場合に、前記共通する組み合わせを、任意の文字列に含まれる前記複数の形態素を複合するための形態素複合ルールとして抽出する抽出手段と
    を具備する電子機器。
  2. 請求項1に記載の電子機器であって、
    前記算出手段は、前記形態素群から算出された組み合わせに含まれる前記形態素及び前記品詞の部分集合の組み合わせを算出し、
    前記判定手段は、前記形態素群から算出された組み合わせ及び前記部分集合の組み合わせを基に、前記出現頻度を判定する
    電子機器。
  3. 請求項2に記載の電子機器であって、
    前記サンプル文字列とは異なる所定の文字列を前記形態素解析手段により複数の形態素に分解し、当該分解された形態素を、前記抽出された形態素複合ルールにより複合し、当該複合された形態素が、前記サンプル文字列及び前記所定の文字列以外の所定の電子ファイル中に第2の数以上含まれるか否かを判断することで、前記形態素複合ルールを、妥当な形態素複合ルールとして確定する確定手段
    をさらに具備する電子機器。
  4. 請求項3に記載の電子機器であって、
    前記確定手段は、前記複合された形態素が、前記所定の文字列中に前記第2の数以上含まれないと判断された場合に、前記所定の閾値を大きくして、前記形態素複合ルールを再度抽出するように前記生成手段及び抽出手段を制御する
    電子機器。
  5. 請求項4に記載の電子機器であって、
    インターネット上の所定の検索サーバと通信可能な通信手段をさらに具備し、
    前記確定手段は、前記検索サーバにより、前記インターネット上から、前記複合された形態素が含まれるウェブページが前記第2の数以上検索されたか否かを判断することで、前記形態素複合ルールを確定する
    電子機器。
  6. 請求項2に記載の電子機器であって、
    前記形態素解析手段は、前記各形態素の品詞の種別を判定し、
    前記算出手段は、前記形態素群に含まれる各形態素と、所定種別の前記各品詞との組み合わせを算出する
    電子機器。
  7. 請求項2に記載の電子機器であって、
    前記任意の文字列を前記形態素解析手段により前記複数の形態素に分解し、当該複数の形態素を、前記形態素複合ルールにより複合する複合手段と、
    前記複合された複数の形態素を1つの形態素としてみなすように前記形態素解析手段を制御する制御手段と
    をさらに具備する電子機器。
  8. 請求項2に記載の電子機器であって、
    前記任意の文字列を前記形態素解析手段により前記複数の形態素に分解し、当該複数の形態素を、前記形態素複合ルールにより複合する複合手段と、
    放送番組データ及び電子番組表データを含む放送信号を受信する受信手段と、
    前記複合された複数の形態素をキーワードとして、前記電子番組表データから、前記受信された放送番組データに関連する放送番組を検索する検索手段と、
    前記検索された放送番組に関する情報を表示する表示手段と
    をさらに具備する電子機器。
  9. 複数の異なるサンプル文字列をそれぞれ複数の形態素に分解し、当該分解された各形態素の品詞を判定し、
    前記各サンプル文字列から分解された各形態素から、連続する所定数かつ所定品詞の形態素で構成される形態素群をそれぞれ抽出し、当該抽出された各形態素群を構成する各形態素と当該各形態素の前記各品詞との組み合わせをそれぞれ算出し、
    前記複数の形態素群から算出された組み合わせのうち、前記複数の形態素群間で共通する組み合わせの出現頻度が所定の閾値以上であるか否かを判定し、
    前記出現頻度が前記所定の閾値以上であると判定された場合に、前記共通する組み合わせを、任意の文字列に含まれる前記複数の形態素を複合するための形態素複合ルールとして抽出する
    形態素複合ルール抽出方法。
  10. 電子機器に、
    複数の異なるサンプル文字列をそれぞれ複数の形態素に分解し、当該分解された各形態素の品詞を判定するステップと、
    前記各サンプル文字列から分解された各形態素から、連続する所定数かつ所定品詞の形態素で構成される形態素群をそれぞれ抽出し、当該抽出された各形態素群を構成する各形態素と当該各形態素の前記各品詞との組み合わせをそれぞれ算出するステップと、
    前記複数の形態素群から算出された組み合わせのうち、前記複数の形態素群間で共通する組み合わせの出現頻度が所定の閾値以上であるか否かを判定するステップと、
    前記出現頻度が前記所定の閾値以上であると判定された場合に、前記共通する組み合わせを、任意の文字列に含まれる前記複数の形態素を複合するための形態素複合ルールとして抽出するステップと
    を実行させるためのプログラム。
JP2008168604A 2008-06-27 2008-06-27 電子機器、形態素複合方法及びそのプログラム Pending JP2010009355A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008168604A JP2010009355A (ja) 2008-06-27 2008-06-27 電子機器、形態素複合方法及びそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008168604A JP2010009355A (ja) 2008-06-27 2008-06-27 電子機器、形態素複合方法及びそのプログラム

Publications (1)

Publication Number Publication Date
JP2010009355A true JP2010009355A (ja) 2010-01-14

Family

ID=41589763

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008168604A Pending JP2010009355A (ja) 2008-06-27 2008-06-27 電子機器、形態素複合方法及びそのプログラム

Country Status (1)

Country Link
JP (1) JP2010009355A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019086887A (ja) * 2017-11-02 2019-06-06 株式会社エヌ・ティ・ティ・データ 情報処理装置、情報処理方法及びコンピュータプログラム
JP2021051613A (ja) * 2019-09-25 2021-04-01 株式会社日立製作所 自然言語処理において使用される辞書を作成する方法およびシステム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019086887A (ja) * 2017-11-02 2019-06-06 株式会社エヌ・ティ・ティ・データ 情報処理装置、情報処理方法及びコンピュータプログラム
JP2021051613A (ja) * 2019-09-25 2021-04-01 株式会社日立製作所 自然言語処理において使用される辞書を作成する方法およびシステム

Similar Documents

Publication Publication Date Title
JP4623985B2 (ja) 電子番組ガイド(epg)データのフリーテキスト検索および属性検索
JP5178109B2 (ja) 検索装置、方法及びプログラム
JP4977589B2 (ja) 固有表現抽出装置、固有表現抽出方法、及びプログラム
KR102154735B1 (ko) 프로그램 추천 장치 및 프로그램 추천 프로그램
US9576581B2 (en) Metatagging of captions
US20070027844A1 (en) Navigating recorded multimedia content using keywords or phrases
WO2014103568A1 (ja) 情報処理装置、情報処理方法、およびプログラム
KR101916874B1 (ko) 자동으로 동영상 하이라이트 영상의 제목을 생성하는 방법, 장치 및 컴퓨터 판독가능 기록 매체
JP4619915B2 (ja) 番組データ処理装置、番組データ処理方法、制御プログラム、記録媒体、ならびに、番組データ処理装置を備えた録画装置、再生装置、および、情報表示装置
CN101422041A (zh) 基于因特网搜索的电视
WO2006073095A1 (ja) 連想辞書作成装置
JP2007114932A (ja) 文字列入力装置、テレビジョン受像機及び文字列入力プログラム
JP5296598B2 (ja) 音声情報抽出装置
US8406606B2 (en) Playback apparatus and playback method
KR20160062667A (ko) 미디어 리소스를 제공하는 방법 및 장치
JP5568953B2 (ja) 情報処理装置、シーン検索方法及びプログラム
EP3518530B1 (en) Information processing apparatus, information processing method, program for scheduling the recording of a broadcast program
JP2010245853A (ja) 動画インデクシング方法及び動画再生装置
US20120013805A1 (en) Apparatus and method for displaying content
US20230017352A1 (en) Systems and methods for phonetic-based natural language understanding
JP2009080576A (ja) 検索装置、方法及びプログラム
US20040193592A1 (en) Recording and reproduction apparatus
JP2010009355A (ja) 電子機器、形態素複合方法及びそのプログラム
JP5152857B2 (ja) 電子機器、表示制御方法、およびプログラム
KR100954262B1 (ko) 멀티미디어파일의 가사 또는 자막 재생 시 어학 학습기 알고리즘 구현 및 그 방법