JP2019008477A - 判別プログラム、判別装置及び判別方法 - Google Patents

判別プログラム、判別装置及び判別方法 Download PDF

Info

Publication number
JP2019008477A
JP2019008477A JP2017122460A JP2017122460A JP2019008477A JP 2019008477 A JP2019008477 A JP 2019008477A JP 2017122460 A JP2017122460 A JP 2017122460A JP 2017122460 A JP2017122460 A JP 2017122460A JP 2019008477 A JP2019008477 A JP 2019008477A
Authority
JP
Japan
Prior art keywords
word
reading
cpu
broader
reading information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017122460A
Other languages
English (en)
Other versions
JP6881077B2 (ja
Inventor
成司 岡嶋
Seiji Okajima
成司 岡嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2017122460A priority Critical patent/JP6881077B2/ja
Publication of JP2019008477A publication Critical patent/JP2019008477A/ja
Application granted granted Critical
Publication of JP6881077B2 publication Critical patent/JP6881077B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】未学習の同形異音語の出現する文脈を判断し、適切な読み分けが行える判別プログラム等の提供。【解決手段】判別プログラムは、文章を取得し、取得した文章から読み分け対象の単語を抽出し、抽出した対象の単語に対応する概念階層を取得し、取得した概念階層に基づいて対象の単語の読み情報毎に、対象の単語の上位語を取得し、取得した読み情報毎の上位語と、文章に含まれる対象の単語以外の周辺単語との共起スコアを算出し、算出した共起スコアに基づいて選択した上位語と対応する読み情報を出力する処理をコンピュータに行わせる。【選択図】図12

Description

本発明は、同形異音語の読み分けを行う判別プログラム等に関する。
従来、同形異音語の読み分けは、読み分け対象語の出現する文脈を学習し、学習して得たモデルにより適切な読みを判別している(例えば特許文献1)。
特開2007−323475号公報
しかし、地名や氏名のような固有名詞は同形異音語が多く文脈の学習が十分行えず、読み分けができない場合がある。1つの側面では、未学習の同形異音語の出現する文脈を判断し、適切な読み分けが行える判別プログラム等の提供を目的とする。
本願に開示する判別プログラムは、文章を取得し、取得した文章から読み分け対象の単語を抽出し、抽出した対象の単語に対応する概念階層を取得し、取得した概念階層に基づいて前記対象の単語の読み情報毎に、前記対象の単語の上位語を取得し、取得した読み情報毎の上位語と、前記文章に含まれる前記対象の単語以外の周辺単語との共起スコアを算出し、算出した共起スコアに基づいて選択した上位語と対応する読み情報を出力する処理をコンピュータに行わせる。
一観点によれば、未学習の同形異音語の適切な読み分けが行える。
判別システムの構成例を示す説明図である。 判別装置のハードウェア構成例を示すブロック図である。 端末のハードウェア構成例を示すブロック図である。 概念階層DBの例を示す説明図である。 概念階層の例を示す説明図である。 概念階層の例を示す説明図である。 出現頻度DBの例を示す説明図である。 尤度比DBの例を示す説明図である。 読み分け辞書の例を示す説明図である。 学習処理の手順例を示すフローチャートである。 読み判別処理の手順例を示すフローチャートである。 読み判定処理の手順例を示すフローチャートである。 場所クラスについての処理例を示す説明図である。 人物クラスについての処理例を示す説明図である。 周辺単語が複数の場合の処理例を示す説明図である。 人物クラスについての処理例を示す説明図である。 判別装置が備える機能の一例を示すブロック図である。
以下実施の形態を、図面を参照して説明する。
まず、以下の説明において用いる用語について説明する。「読み情報」とはテキストを読み上げるための情報である。読み情報は読みを表すひらがな、カタカナ又はローマ字及びアクセントを表すアクセント記号を含む。読み情報に抑揚を表す抑揚符を含めてもよい。なお、以下の説明においては、「読み情報」を単に「読み」と記載する場合もある。
「共起」とは、ある単語が文章中に出現した場合に、当該文章中に他の特定の単語が同時に出現することをいう。このとき、特定の単語をある単語の「共起語」という。複数の文章を分析した結果、共起語が出現する度数を「出現頻度」という。また、「尤度比」は共起語の出現頻度より算出する指標をいう。
「概念階層」とは、単語が示す概念の階層構造をいう。ある2つの単語の概念を比較した場合において、一方の単語が示す概念が他方の単語の概念を含むとき、一方の単語が示す概念を「上位概念」という。他方の単語の概念を「下位概念」という。また、一方の単語を「上位の単語」、「上位の語」又は「上位語」という。他方の単語を「下位の単語」、「下位の語」又は「下位語」という。このように、概念の広狭を上下関係に置き換えたものが概念階層である。
「クラス」とはある一塊の概念階層をいう。以下の説明においては、固有表現抽出に得られる場所、人物それぞれをクラスと呼ぶ。
図1は判別システムの構成例を示す説明図である。判別システムは判別装置1、端末2を含む。端末2は複数台であってもよい。端末2の台数は図1に示すように2台に限らない。端末2は1台でも良いし、3台以上でもよい。判別装置1及び端末2はネットワークNにより、互いに通信可能に接続されている。
図2は判別装置1のハードウェア構成例を示すブロック図である。判別装置1はCPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、大容量記憶部14、通信部15及び読み取り部16を含む。各構成はバスBで接続されている。
CPU11はROM12に記憶された制御プログラム(判別プログラム)1Pに従い、ハードウェア各部を制御する。RAM13は例えばSRAM(Static RAM)、DRAM(Dynamic RAM)又はフラッシュメモリである。RAM13はCPU11によるプログラムの実行時に発生するデータを一時的に記憶する。
大容量記憶部14は、例えばハードディスク又はSSD(Solid State Drive)などである。大容量記憶部14は各種データを記憶する。制御プログラム1Pを大容量記憶部14に記憶してもよい。通信部15はネットワークNを介して、端末2や他のコンピュータと通信を行う。読み取り部16はCD(Compact Disc)−ROM及びDVD(Digital Versatile Disc)−ROMを含む可搬型記憶媒体1aを読み取る。CPU11が読み取り部16を介して、制御プログラム1Pを可搬型記憶媒体1aより読み取り、大容量記憶部14に記憶してもよい。また、ネットワークN等を介して他のコンピュータからCPU11が制御プログラム1Pをダウンロードし、大容量記憶部14に記憶してもよい。さらにまた、半導体メモリ1bから、CPU11が制御プログラム1Pを読み込んでもよい。
図3は端末2のハードウェア構成例を示すブロック図である。端末2はCPU21、ROM22、RAM23、大容量記憶部24、表示部25、入力部26、通信部27及び読み取り部28を含む。各構成はバスBで接続されている。
CPU21はROM22に記憶された制御プログラム2Pに従い、ハードウェア各部を制御する。RAM33は例えばSRAM、DRAM又はフラッシュメモリである。RAM23はCPU21によるプログラムの実行時に発生するデータを一時的に記憶する。
大容量記憶部24は、例えばハードディスク又はSSDなどである。大容量記憶部24は各種データを記憶する。制御プログラム2Pを大容量記憶部24に記憶してもよい。
表示部25は例えば液晶表示パネルなどの画像表示デバイスを含む。表示部25は判別装置1が送信した読み情報を表示する。また、表示部25がスピーカなどの音声出力デバイスを備え、判別装置1が送信した読み情報を音声出力してもよい。さらにまた、表示部25は画像表示デバイスや音声出力デバイスを備えず、画像データや音声データを出力し、端末2外部の画像表示デバイスに画像を表示させたり、音声出力デバイスに音声出力させたりしてもよい。
入力部26はキーボードやマウスを介して、ユーザが入力した読み分け対象テキストを受け付ける。入力部26はマイクなどを介して音声データを受け付けてもよい。また、タッチパネルディスプレイのように、表示部25及び入力部26を一体してもよい。
通信部27はネットワークNを介して、判別装置1や他のコンピュータと通信を行う。読み取り部28はCD−ROM及びDVD−ROMを含む可搬型記憶媒体2aを読み取る。CPU21が読み取り部28を介して、制御プログラム2Pを可搬型記憶媒体2aより読み取り、大容量記憶部24に記憶してもよい。また、ネットワークN等を介して他のコンピュータからCPU21が制御プログラム2Pをダウンロードし、大容量記憶部24に記憶してもよい。さらにまた、半導体メモリ2bから、CPU21が制御プログラム2Pを読み込んでもよい。
次に判別装置1の大容量記憶部14が記憶しているデータベース(DB:DataBase)について説明する。図4は概念階層DB141の例を示す説明図である。概念階層DB141は単語間の概念階層を記憶するデータベースである。概念階層DB141はID列、単語列、上位列及び下位列を含む。ID列は単語を一意に特定可能なIDを記憶する。単語列は概念階層を構成する単語を記憶する。上位列は上位語のIDを記憶する。下位列は下位語のIDを記憶する。
図5及び図6は概念階層の例を示す説明図である。図5は場所クラスの例である。図5は図4に示した概念階層DB141のレコードの中で、IDが1から6までのレコードの上下関係をツリー表示したものである。場所がルートノードである。場所の下位ノードとして日本が定義されている。日本の下位ノードとして、東京都及び福島県が定義されている。東京都の下位ノードとして、渋谷区が定義されている。福島県の下位ノードとして、猪苗代町が定義されている。
図6は人物クラスの例である。図6は図4に示した概念階層DB141のレコードの中で、IDが100から104までのレコードの上下関係をツリー表示したものである。人物がルートノードである。人物の下位ノードとして芸能人が定義されている。芸能人の下位ノードとして、俳優及び歌手が定義されている。俳優の下位ノードは定義されていない。歌手の下位ノードとして、演歌歌手が定義されている。
図7は出現頻度DB142の例を示す説明図である。出現頻度DB142は概念階層(クラス)毎に設けるデータベースである。出現頻度DB142は各概念階層のそれぞれの単語について、共起語とその出現頻度とを対応付けて記憶する。出現頻度DB142は共起語列及び概念階層に含まれる各単語の列を含む。概念階層に含まれる各単語の列を総称して階層単語列という。図7Aは場所クラスの例を示す。場所クラスの出現頻度DB142は共起語列に加え、階層単語列として、日本列、東京都列、渋谷区列、福島県列及び猪苗代町列を含む。図7Aでは、例えば「渋谷区」と「ハチ公像」とが共起する頻度が10000であることを示している。図7Bは人物クラスの例を示す。人物クラスの出現頻度DB142は共起語列に加え、階層単語列として、芸能人列、俳優列、歌手列及び演歌歌手列を含む。図7Bでは、例えば「演歌歌手」と「こぶし」とが共起する頻度が2000であることを示している。出現頻度DB142は複数の文の集合(コーパス)に基づいて構築される。すなわち、出現頻度DB142はコーパスを学習データとする学習によって構築される。
図8は尤度比DB143の例を示す説明図である。尤度比DB143は出現頻度DB142に基づいて構築される。そのため、尤度比DB143は出現頻度DB142と同様に層(クラス)毎に設ける。尤度比DB143は各概念階層のそれぞれの単語について、共起語とその尤度比とを対応付けて記憶する。尤度比は出現頻度DB142が記憶する出現頻度から算出する指標である。尤度比の算出方法は後述する。尤度比DB143は出現頻度DB142と同様に、共起語列及び階層単語列を含む。図8Aは場所クラスの例を示す。場所クラスの尤度比DB143は共起語列に加え、階層単語列として、日本列、東京都列、渋谷区列、福島県列及び猪苗代町列を含む。図8Aでは、例えば「渋谷区」と「ハチ公像」との尤度比が4.28であることを示している。図8Bは人物クラスの例を示す。人物クラスの尤度比DB143は共起語列に加え、階層単語列として、芸能人列、俳優列、歌手列及び演歌歌手列を含む。図8Bでは、例えば「演歌歌手」と「こぶし」との尤度比が1.96であることを示している。
図9は読み分け辞書144の例を示す説明図である。読み分け辞書144は同音異義語の読み情報を特定するのに用いられる。読み分け辞書144は単語列、読み列、語義列、クラス列及び上位概念列を含む。単語列は読み分け対象の単語を記憶する。読み列は単語の読み情報を記憶する。語義列は単語の語義を記憶する。クラス列は単語のクラスを記憶する。上位概念列は単語の上位概念を記憶する。
次に、判別装置1が行う情報処理について説明する。図10は学習処理の手順例を示すフローチャートである。学習処理は読み情報の判別に先立ち実行する処理である。判別装置1のCPU11は概念階層を構築する(ステップS1)。CPU11は概念階層についてのデータをDBpediaなどの知識ベースやシソーラス、又は人手で作成されたデータベースから取得する。CPU11は取得した概念階層のデータから、概念階層DB141のレコードを生成し、大容量記憶部14に記憶する。又は概念階層DB141が記憶すべき各レコードの内容を記載したテキストファイルを読み込むことにより、概念階層DB141を作成する。テキストファイルは例えば、CSVファイルである。CPU11は学習を行う(ステップS2)。ここでの学習とは、例えば上述したように、コーパスを学習データとする学習によって出現頻度DB142を構築することである。CPU11は学習により得た判定モデルを記憶する(ステップS3)。判定モデルは例えば、上述した尤度比DB143である。
学習処理について、上述したデータを用いて説明する。CPU11は図4で示す概念階層DB141を作成する。例えば、ユーザは、ドローツールを用いて、又はテキスト入力により、概念階層を図5及び図6に示すツリー形式で入力する。知識ベースやシソーラスから階層情報を取得する場合は、変換プログラムを利用して概念階層DB141を作成する。CPU11は入力されたツリーの構造を解析し、図4に示す概念階層DB141を作成する(ステップS1)。CPU11は概念階層DB141の単語を列として含む出現頻度DB142を定義しておく。CPU11は学習を行う(ステップS2)。「渋谷区の著名な観光スポットの1つに、ハチ公像がある。」という一文から、「渋谷区」と「ハチ公像」とは共起語の関係にあると、CPU11は判定する。CPU11は、出現頻度DB142において共起語列の値が「ハチ公像」であるレコードを特定する。CPU11は特定したレコードの「渋谷区」列の値を一加算する。共起語列の値が「ハチ公像」であるレコードがない場合、CPU11は出現頻度DB142に新規レコードを追加する。そして、追加したレコードにおいて、共起語列に「ハチ公像」を設定する。階層単語列については、渋谷区列は1とし、それ以外の階層単語列については、0とする。同様に「東京都は都バスを経営している」との一文から、「都バス」が「東京都」の共起語であると、CPU11は判定する。CPU11は、共起語列の値が「ハチ公像」であるレコードの東京都列の値を1加算する。同様に、「福島県に会津城を見に行った」との一文から、CPU11は「会津城」の福島県列の値を1加算する。「磐梯山は猪苗代町、磐梯町などにまたがる山である」との一文から、CPU11は「磐梯山」の猪苗代町列の値を1加算する。
人物クラスの出現頻度DB142も同様である。「数多くの俳優がこの舞台を経験してきた」との一文から、共起語「舞台」の俳優列の値を、CPU11は1加算する。「ドラマに出演した俳優に話を聞いた」との一文から、共起語「ドラマ」の俳優列の値を、CPU11は1加算する。「演歌歌手はこぶしをまわす」との一文から、共起語「こぶし」の演歌歌手列の値を、CPU11は1加算する。「番組に多数の歌手が登場した」との一文から、共起語「番組」の歌手列の値を、CPU11は1加算する。
以上の処理をコーパスに含まれる文に対して行い、出現頻度DB142の構築(学習)が完了する。CPU11は構築が完了した出現頻度DB142を用いて、尤度比DB143を構築する。尤度比Lrは出現頻度を用いて、以下の式(1)で求める。
Figure 2019008477
上記の語wは、概念階層に含まれるいずれかの単語である。共起語cは、出現頻度DB142の共起語列に記憶している単語のいずれかである。尤度比Lrの計算例を示す。共起語「都バス」を例とする。図7に示すように、「日本」に対する「都バス」の出現頻度は20である。「東京都」に対する「都バス」の出現頻度は9000である。「渋谷区」に対する「都バス」の出現頻度は2000である。「福島県」に対する「都バス」の出現頻度は10である。「猪苗代町」に対する「都バス」の出現頻度は0である。この場合、「日本」に対する「都バス」の尤度比は次のように求める。
Nは「日本」(語w)と「都バス」(共起語c)が同時に出現する頻度であるから、20である。Mは「日本」(語w)以外の語と共起語cが同時に出現する頻度であるから、「東京都」に対する「都バス」の出現頻度は9000、「渋谷区」に対する「都バス」の出現頻度は2000、「福島県」に対する「都バス」の出現頻度は10、及び「猪苗代町」に対する「都バス」の出現頻度は0を足し合わせた値である。式(1)に当てはめると以下の式(2)となる。
Figure 2019008477
計算の結果、「日本」に対する「都バス」の尤度比Lrは、−9.07である。CPU11は同様にして、出現頻度DB142に記憶しているすべての語の組み合わせについて、尤度比を計算する。そして、計算結果を尤度比DB143(判定モデル)として、大容量記憶部14に記憶する(ステップS3)。なお、尤度比は、各概念階層のそれぞれの単語について、出現文脈の学習結果として得る指標の一例であり、他の適切な指標を用いてもよい。
図11は読み判別処理の手順例を示すフローチャートである。CPU11は読み分け辞書144を構築する(ステップS11)。読み分け辞書144は読み分け対象単語と、読みと、語義とを含む辞書に対して、クラスと上位概念とを付加することにより構築できる。当該付加は知識ベースやシソーラスなどを利用して行う。人による手作業でもよい。又、上位概念は複数となることを除外しないが、ここでは、説明簡略化のため、1つとする。CPU11は読み分け対象のテキストを取得する(ステップS12)。CPU11は読み分け辞書144を用いて、読み分け対象のテキストの中から、複数の読みのある語、同形異音語を抽出する(ステップS13)。CPU11は未処理の同形異音語を選択する(ステップS14)。CPU11は選択した同形異音語に対し固有表現抽出を適用し、クラスを判定する(ステップS15)。CPU11は判別したクラスによって、読みが確定するか否かを判定する(ステップS16)。CPU11は判別したクラスによって読みが確定すると判定した場合(ステップS16でYES)、処理をステップS18に移す。CPU11は判別したクラスによって読みが確定しないと判定した場合(ステップS16でNO)、読み判定を行う(ステップS17)。CPU11は未処理の同形異音語があるか否か判定する(ステップS18)。CPU11は未処理の同形異音語があると判定した場合(ステップS18でYES)、処理をステップS14に戻す。CPU11は未処理の同形異音語がないと判定した場合(ステップS18でNO)、CPU11は読みを出力し(S19)、処理を終了する。
図12は読み判定処理の手順例を示すフローチャートである。CPU11はステップS14で判定したクラスに基づいて、処理に用いる概念階層及び判定モデル(尤度比DB143のテーブル)を選択する(ステップS21)。CPU11は周辺単語を選択する(ステップS22)。周辺単語の選択は、尤度比DB143が記憶する共起語を検索することにより、行う。CPU11は読み分け辞書144から読みの候補を取得する(ステップS23)。CPU11は読みの候補を選択する(ステップS24)。CPU11は選択した読みの候補である単語の上位単語を、概念階層DB141から取得する(ステップS25)。上位単語は読みの候補である単語の上位概念の単語である。CPU11は上位単語と周辺単語との尤度比を尤度比DB143から取得する(ステップS26)。CPU11はステップS25で取得した上位単語のさらに上位単語を取得する(ステップS27)。CPU11はさらに取得した上位単語が、読みの候補である他の単語と共通するか否かを判定する(ステップS28)。CPU11は取得した上位単語が他の単語と共通しないと判定した場合(ステップS28でNO)、処理をステップS26に戻す。なお、戻ったステップS26では、ステップS27で取得した上位単語と周辺単語との尤度比を、CPU11は尤度比DB143から取得する。CPU11は取得した上位単語が他の単語と共通すると判定した場合(ステップS28でYES)、これまで取得した尤度比の中での最大値をステップS24で選択した読みの候補の尤度比として、読みの候補と対応付けて一時記憶領域に記憶する(ステップS29)。一時記憶領域はRAM13、大容量記憶部14などに設ける。CPU11は未処理の読みの候補があるか否かを判定する(ステップS30)。CPU11は未処理の読みの候補があると判定した場合(ステップS30でYES)、処理をステップS24に戻す。CPU11は未処理の読みの候補がないと判定した場合(ステップS30でNO)、読みを決定する(ステップS31)。CPU11は一時記憶領域を参照し、最も大きい尤度比と対応付けられた読みの候補を取得する。CPU11は取得した読みの候補の読みを、処理対象の同形異音語の読みとして決定する。CPU11は処理を呼び出しもとに戻す。
読み判別処理及び読み判定処理を、例を用いて説明する。図13は場所クラスについての処理例を示す説明図である。場所クラスでは、「渋谷区」の「シブヤ(東京都渋谷区渋谷)」と「猪苗代町」の「シブ´タニ(福島県耶麻郡猪苗代町渋谷)」とを読み分ける。読み分けるテキストの例は、「都バスで渋谷へ」とする。なお、読み分け辞書144は構築済みとする。
CPU11は読み分け対象テキストとして、「都バスで渋谷へ」を取得する(ステップS12)。CPU11は読み分ける対象の同形異音語を抽出する(ステップS13)。CPU11は「渋谷」を抽出する。CPU11は「渋谷」を選択する(ステップS14)。CPU11は選択した語「渋谷」に対して固有表現抽出を適用し、クラスを判定する(ステップS15)。ここでは、固有表現抽出の結果として、「都バスで<場所>渋谷</場所>へ」とのテキストが出力され、「渋谷」は場所クラスであると、CPU11は判定する。CPU11は読み分け辞書144を参照し、読みが確定するか否か判定する(ステップS16)。図9に示すように、単語が「渋谷」かつクラスが「場所」のレコードは2件あるため、読みは確定しないとCPU11は判定する(ステップS16でNO)。CPU11は読み判定処理を行う(ステップS17)。
CPU11は場所クラスに対応する概念階層(概念階層DB141のレコード)、判定モデル(尤度比DB143のテーブル)を選択する。CPU11は、読み分け対象テキストに対して、尤度比DB143に記憶する共起語の検索を行う。ここで、CPU11は「都バス」を周辺単語として選択する。CPU11は読みの候補を取得する(ステップS23)。CPU11は、単語が「渋谷」かつクラスが「場所」であるレコードを読み分け辞書144から取得する。CPU11は読みの候補として「シブヤ」と「シブ´タニ」とを得る。前者の上位概念は「渋谷区」である、後者の上位概念は「猪苗代町」である。
CPU11は読みの候補のうち、「シブヤ」(上位単語「渋谷区」)を選択する(ステップS24)。CPU11は上位単語の「渋谷区」を取得する(ステップS25)。CPU11は「都バス」と「渋谷区」との尤度比を、尤度比DB143から取得する(ステップS26)。当該尤度比は−2.17である。CPU11は「渋谷区」の上位単語である「東京都」を選択する(ステップS27)。CPU11は「東京都」が他の読み候補の語「シブ´タニ」と共通の上位単語であるか否か判定する(ステップS28)。「東京都」は共通の上位単語ではないので(ステップS28でNO)、CPU11は処理をステップS26に戻し、「都バス」と「東京都」との尤度比を、尤度比DB143から取得する。当該尤度比は2.15である。CPU11は「東京都」の上位単語である「日本」を選択する(ステップS27)。CPU11は「日本」が他の読み候補の語「シブ´タニ」と共通の上位単語であるか否か判定する(ステップS28)。「日本」は共通の上位単語であるので(ステップS28でYES)、これまで取得した尤度比の中で、最大値である2.15を「シブヤ」の尤度比として、「シブヤ」と対応付けて一時記憶領域に記憶する(ステップS29)。読みの候補のうち、「シブ´タニ」(上位単語「猪苗代町」)は未処理であるから、CPU11は未処理の読みの候補があると判定し(ステップS30でYES)、処理をステップS24に戻す。
CPU11は読みの候補「シブ´タニ」(上位単語「猪苗代町」)を選択する(ステップS24)。CPU11は上位単語の「猪苗代町」を取得する(ステップS25)。CPU11は「都バス」と「猪苗代町」との尤度比を、尤度比DB143から取得する(ステップS26)。当該尤度比は−14.43である。CPU11は「猪苗代町」の上位単語である「福島県」を選択する(ステップS27)。CPU11は「福島県」が他の読み候補の語「シブヤ」と共通の上位単語であるか否か判定する(ステップS28)。「福島県」は共通の上位単語ではないので(ステップS28でNO)、CPU11は処理をステップS26に戻し、「都バス」と「福島県」との尤度比を、尤度比DB143から取得する。当該尤度比は−10.04である。CPU11は「福島県」の上位単語である「日本」を選択する(ステップS27)。CPU11は「日本」が他の読み候補の語「シブヤ」と共通の上位単語であるか否か判定する(ステップS28)。「日本」は共通の上位単語であるので(ステップS28でYES)、これまで取得した尤度比の中で、最大値である−10.04を「シブ´タニ」の尤度比として、「シブ´タニ」と対応付けて一時記憶領域に記憶する(ステップS29)。CPU11は未処理の読みの候補がないと判定し(ステップS30でNO)、読みを決定する(ステップS31)。
CPU11は一時記憶領域を参照し、最も大きい尤度比と対応付けられた読みの候補を取得する。CPU11は取得した読みの候補「シブヤ」(上位単語「渋谷区」)の読み「シブヤ」を今回の同形異音語の読みとして決定する(ステップS31)。
読み判別処理及び読み判定処理を、人物クラスの例を用いて説明する。図14は人物クラスについての処理例を示す説明図である。人物クラスでは、「俳優」の「シ´ブヤ(渋谷一郎)」と「演歌歌手」の「シブ´タニ(渋谷五郎)」とを読み分ける。読み分けるテキストの例は、「渋谷のこぶしまわしは格別だ」とする。場所クラスの場合と同様に、読み分け辞書144は構築済みとする。
CPU11は読み分け対象テキストとして、「渋谷のこぶしまわしは格別だ」を取得する(ステップS12)。CPU11は読み分ける対象の同形異音語を抽出する(ステップS13)。CPU11は「渋谷」を抽出する。CPU11は「渋谷」を選択する(ステップS14)。CPU11は選択した語「渋谷」に対して固有表現抽出を適用し、クラスを判定する(ステップS15)。ここでは、固有表現抽出の結果として、「<人物>渋谷</人物>のこぶしまわしは格別だ」とのテキストが出力され、「渋谷」は人物クラスであると、CPU11は判定する。CPU11は読み分け辞書144を参照し、読みが確定するか否か判定する(ステップS16)。図9に示すように、単語が「渋谷」かつクラスが「人物」のレコードは2件あるため、読みは確定しないとCPU11は判定する(ステップS16でNO)。CPU11は読み判定処理を行う(ステップS17)。
CPU11は人物クラスに対応する概念階層(概念階層DB141のレコード)、判定モデル(尤度比DB143のテーブル)を選択する。CPU11は、読み分け対象テキストに対して、尤度比DB143に記憶する共起語の検索を行う。ここで、CPU11は「こぶし」を周辺単語として選択する。CPU11は読みの候補を取得する(ステップS23)。CPU11は、単語が「渋谷」かつクラスが「人物」であるレコードを読み分け辞書144から取得する。CPU11は読みの候補として「シ´ブヤ」と「シブ´タニ」とを得る。前者の上位概念は「俳優」である、後者の上位概念は「演歌歌手」である。
CPU11は読みの候補のうち、「シ´ブヤ」(上位概念「俳優」)を選択する(ステップS24)。CPU11は上位単語の「俳優」を取得する(ステップS25)。CPU11は「こぶし」と「俳優」との尤度比を、尤度比DB143から取得する(ステップS26)。当該尤度比は−7.90である。CPU11は「俳優」の上位単語である「芸能人」を選択する(ステップS27)。CPU11は「芸能人」が他の読み候補の語「シブ´タニ」と共通の上位単語であるか否か判定する(ステップS28)。「芸能人」は共通の上位単語であるので(ステップS28でYES)、これまで取得した尤度比の中で、最大値である−7.90を「シ´ブヤ」の尤度比として、「シ´ブヤ」と対応付けて一時記憶領域に記憶する(ステップS29)。読みの候補のうち、「シブ´タニ」(上位単語「演歌歌手」)は未処理であるから、CPU11は未処理の読みの候補があると判定し(ステップS30でYES)、処理をステップS24に戻す。
CPU11は読みの候補「シブ´タニ」(上位単語「演歌歌手」)を選択する(ステップS24)。CPU11は上位単語の「演歌歌手」を取得する(ステップS25)。CPU11は「こぶし」と「演歌歌手」との尤度比を、尤度比DB143から取得する(ステップS26)。当該尤度比は1.96である。CPU11は「演歌歌手」の上位単語である「歌手」を選択する(ステップS27)。CPU11は「歌手」が他の読み候補の語「シ´ブヤ」と共通の上位単語であるか否か判定する(ステップS28)。「歌手」は共通の上位単語ではないので(ステップS28でNO)、CPU11は処理をステップS26に戻し、「こぶし」と「歌手」との尤度比を、尤度比DB143から取得する。当該尤度比は−2.01である。CPU11は「歌手」の上位単語である「芸能人」を選択する(ステップS27)。CPU11は「芸能人」が他の読み候補の語「シ´ブヤ」と共通の上位単語であるか否か判定する(ステップS28)。「芸能人」は共通の上位単語であるので(ステップS28でYES)、これまで取得した尤度比の中で、最大値である1.96を「シブ´タニ」の尤度比として、「シブ´タニ」と対応付けて一時記憶領域に記憶する(ステップS29)。CPU11は未処理の読みの候補がないと判定し(ステップS30でNO)、読み決定する(ステップS31)。
CPU11は一時記憶領域を参照し、最も大きい尤度比と対応付けられた読みの候補を取得する。CPU11は取得した読みの候補「シブ´タニ」(上位単語「演歌歌手」)の読み「シブ´タニ」を今回の同形異音語の読みとして決定する(ステップS31)。
次に、周辺単語が複数の場合の処理について、説明する。周辺単語が複数の場合、それぞれの周辺単語について同様の処理を行い、各読みの候補(語義)の尤度比はそのうちの最大のものを採用する。図15は周辺単語が複数の場合の処理例を示す説明図である。読み分け対象テキストとして、「渋谷で磐梯山を見ながらお茶した」を例とする。読み分け対象となる語は、場所クラスの単語「渋谷」である。周辺単語は「磐梯山」及び「お茶」である。読みの候補は、「シブヤ」(上位概念「渋谷区」)及び「シブ´タニ」(上位概念は「猪苗代町」)である。
まず、読みの候補「シブヤ」について、上位単語「渋谷区」の尤度比を取得する。「渋谷区」と「磐梯山」との尤度比は、−8.74である。「渋谷区」と「お茶」との尤度比は、−3.84である。さらに上位の「東京都」と「磐梯山」との尤度比は、−10.82である。「東京都」と「お茶」との尤度比は、−1.85である。以上より、読みの候補「シブヤ」に対する尤度比は、−1.85である。
同様に、読みの候補「シブ´タニ」については、次のようになる。「猪苗代町」と「磐梯山」との尤度比は、−1.01である。「猪苗代町」と「お茶」との尤度比は、−5.48である。さらに上位の「福島県」と「磐梯山」との尤度比は、−0.33である。「福島県」と「お茶」との尤度比は、−4.46である。以上より、読みの候補「シブ´タニ」に対する尤度比は、−0.33である。「シブ´タニ」の尤度比の方が「シブヤ」の尤度比よりも大きいので、読みは「シブ´タニ」であると判定する。
続いて、1つ上位の概念だけを見るのではなく、さらに遡って上位概念を参照する必要性について説明する。図16は人物クラスについての処理例を示す説明図である。読み分け対象テキストとして、「その番組で渋谷は歌って踊った」を例とする。読み分け対象となる語は、人物クラスの単語「渋谷」である。周辺単語は「番組」である。読みの候補は、「シ´ブヤ」(上位概念「俳優」)及び「シブ´タニ」(上位概念は「演歌歌手」)である。
この場合において、「俳優」と「番組」との尤度比は−0.85である。また、「演歌歌手」と「番組」との尤度比は−3.35である。さらに、「歌手」と「番組」との尤度比は0.21である。以上を総合すると、読みの候補「シ´ブヤ」に対する尤度比は−0.85で、読みの候補「シブ´タニ」に対する尤度比は0.21となる。よって、ここでの読みは、「シブ´タニ」であると判定される。
以上において、1つ上位の概念のみ参照場合、読みの候補「シ´ブヤ」に対する尤度比は−0.85で、読みの候補「シブ´タニ」に対する尤度比は−3.35となる。したがって、ここでの読みは、上述とは逆転し、「シ´ブヤ」であるという誤った判定をしてしまう。よって、1つ上位の概念だけを見るのではなく、さらに遡って上位概念を参照する必要がある。
本実施の形態は、以下の効果を奏する。同形異音語の読み分けにおいて、学習に現れない単語でも、概念階層に紐付けて、上位概念と周辺単語との共起スコア(例えば尤度比)を利用した判定を行う。それによって、正しい読みの判定をすることが可能となる。
なお、尤度比に換えて、共起語の出現度合いを示す他の指標値を用いてもよい。この場合、読みを決定する際に、どの指標値ものを選択するかは、指標値の性質により決定する。尤度比の場合、値が大きい程、共起する度合いが大きいので、最も大きい尤度比(を持つ上位語)に対応する読みが選択される。
図17は判別装置1が備える機能の一例を示すブロック図である。判別装置1は取得部11a、抽出部11b、概念取得部11c、上位語取得部11d、算出部11e及び出力部11fを含む。これらの各機能部は、CPU11が制御プログラム1Pに基づいて動作することにより、実現される。
取得部11aは文章を取得する。抽出部11bは取得した文章から読み分け対象の単語を抽出する。概念取得部11cは抽出した対象の単語に対応する概念階層を取得する。上位語取得部11dは取得した概念階層に基づいて対象の単語の読み情報毎に、対象の単語の上位語を取得する。算出部11eは取得した読み情報毎の上位語と、文章に含まれる対象の単語以外の周辺単語との共起スコアを算出する。出力部11fは算出した共起スコアに基づいて選択した上位語と対応する読み情報を出力する。
各実施の形態で記載されている技術的特徴(構成要件)はお互いに組み合わせ可能であり、組み合わせすることにより、新しい技術的特徴を形成することができる。
今回開示された実施の形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
以上の実施の形態に関し、さらに以下の付記を開示する。
(付記1)
文章を取得し、
取得した文章から読み分け対象の単語を抽出し、
抽出した対象の単語に対応する概念階層を取得し、
取得した概念階層に基づいて前記対象の単語の読み情報毎に、前記対象の単語の上位語を取得し、
取得した読み情報毎の上位語と、前記文章に含まれる前記対象の単語以外の周辺単語との共起スコアを算出し、
算出した共起スコアに基づいて選択した上位語と対応する読み情報を出力する
処理をコンピュータに行わせる判別プログラム。
(付記2)
最も高い共起スコアを持つ上位語を選択する
付記1に記載の判別プログラム。
(付記3)
共起スコアは、読み情報毎の上位語に対する前記周辺単語の出現頻度に基づいて算出する
付記1又は付記2に記載の判別プログラム。
(付記4)
前記概念階層はクラス毎に定義してあり、
前記文章に対して固有表現抽出を行い、
固有表現抽出により得た対象単語のクラスに対応する前記概念階層を取得する
付記1から付記3のいずれか一つに記載の判別プログラム。
(付記5)
前記対象の単語と、当該対象の単語の読みとを対応付けて記憶する読み分け辞書に基づいて、前記文章に含まれる前記読み分け対象の単語を抽出する
付記1から付記4のいずれか一つに記載の判別プログラム。
(付記6)
前記対象の単語と、当該対象の単語の読み、語義、クラス及び上位語とを対応付けて記憶する読み分け辞書に基づいて、前記文章に含まれる前記読み分け対象の単語を抽出し、
前記読み分け辞書より、前記最も高い共起スコアの上位語と対応する読み情報を取得する
付記1から付記4のいずれか一つに記載の判別プログラム。
(付記7)
前記対象の単語と、当該対象の単語の読み、語義、クラス及び上位語とを対応付けて記憶する読み分け辞書に基づいて、前記文章に含まれる前記読み分け対象の単語を抽出し、
前記読み分け辞書より、前記対象の単語及び当該対象の単語のクラスに対応する読み情報を取得し、
取得した読み情報が一つの場合は、前記共起スコアを算出せずに前記読み情報を出力する
付記4に記載の判別プログラム。
(付記8)
文章を取得する取得部と、
取得した文章から読み分け対象の単語を抽出する抽出部と、
抽出した対象の単語に対応する概念階層を取得する概念取得部と、
取得した概念階層に基づいて前記対象の単語の読み情報毎に、前記対象の単語の上位語を取得する上位語取得部と、
取得した読み情報毎の上位語と、前記文章に含まれる前記対象の単語以外の周辺単語との共起スコアを算出する算出部と、
算出した共起スコアに基づいて選択した上位語と対応する読み情報を出力する出力部と
を備える判別装置。
(付記9)
同形異義語の読み情報を出力するコンピュータが、
文章を取得し、
取得した文章から読み分け対象の単語を抽出し、
抽出した対象の単語に対応する概念階層を取得し、
取得した概念階層に基づいて前記対象の単語の読み情報毎に、前記対象の単語の上位語を取得し、
取得した読み情報毎の上位語と、前記文章に含まれる前記対象の単語以外の周辺単語との共起スコアを算出し、
算出した共起スコアに基づいて選択した上位語と対応する読み情報を出力する
判別方法。
1 判別装置
11 CPU
11a 取得部
11b 抽出部
11c 概念取得部
11d 上位語取得部
11e 算出部
11f 出力部
12 ROM
13 RAM
14 大容量記憶部
141 概念階層DB
142 出現頻度DB
143 尤度比DB
144 読み分け辞書
15 通信部
16 読み取り部
1P 制御プログラム
1a 可搬型記憶媒体
1b 半導体メモリ
2 端末

Claims (5)

  1. 文章を取得し、
    取得した文章から読み分け対象の単語を抽出し、
    抽出した対象の単語に対応する概念階層を取得し、
    取得した概念階層に基づいて前記対象の単語の読み情報毎に、前記対象の単語の上位語を取得し、
    取得した読み情報毎の上位語と、前記文章に含まれる前記対象の単語以外の周辺単語との共起スコアを算出し、
    算出した共起スコアに基づいて選択した上位語と対応する読み情報を出力する
    処理をコンピュータに行わせる判別プログラム。
  2. 最も高い共起スコアを持つ上位語を選択する
    請求項1に記載の判別プログラム。
  3. 共起スコアは、読み情報毎の上位語に対する前記周辺単語の出現頻度に基づいて算出する
    請求項1又は請求項2に記載の判別プログラム。
  4. 文章を取得する取得部と、
    取得した文章から読み分け対象の単語を抽出する抽出部と、
    抽出した対象の単語に対応する概念階層を取得する概念取得部と、
    取得した概念階層に基づいて前記対象の単語の読み情報毎に、前記対象の単語の上位語を取得する上位語取得部と、
    取得した読み情報毎の上位語と、前記文章に含まれる前記対象の単語以外の周辺単語との共起スコアを算出する算出部と、
    算出した共起スコアに基づいて選択した上位語と対応する読み情報を出力する出力部と
    を備える判別装置。
  5. 同形異義語の読み情報を出力するコンピュータが、
    文章を取得し、
    取得した文章から読み分け対象の単語を抽出し、
    抽出した対象の単語に対応する概念階層を取得し、
    取得した概念階層に基づいて前記対象の単語の読み情報毎に、前記対象の単語の上位語を取得し、
    取得した読み情報毎の上位語と、前記文章に含まれる前記対象の単語以外の周辺単語との共起スコアを算出し、
    算出した共起スコアに基づいて選択した上位語と対応する読み情報を出力する
    判別方法。
JP2017122460A 2017-06-22 2017-06-22 判別プログラム、判別装置及び判別方法 Active JP6881077B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017122460A JP6881077B2 (ja) 2017-06-22 2017-06-22 判別プログラム、判別装置及び判別方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017122460A JP6881077B2 (ja) 2017-06-22 2017-06-22 判別プログラム、判別装置及び判別方法

Publications (2)

Publication Number Publication Date
JP2019008477A true JP2019008477A (ja) 2019-01-17
JP6881077B2 JP6881077B2 (ja) 2021-06-02

Family

ID=65028910

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017122460A Active JP6881077B2 (ja) 2017-06-22 2017-06-22 判別プログラム、判別装置及び判別方法

Country Status (1)

Country Link
JP (1) JP6881077B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022215120A1 (ja) * 2021-04-05 2022-10-13 株式会社KPMG Ignition Tokyo 情報処理装置、情報処理方法、情報処理プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09204434A (ja) * 1996-01-24 1997-08-05 Fujitsu Ltd 音声合成装置、音声合成方法及び記録媒体
WO2010113396A1 (ja) * 2009-03-31 2010-10-07 日本電気株式会社 読み方判断装置、方法、プログラム、及びそのコンピュータ可読媒体、並びに音声合成装置
JP2016122183A (ja) * 2014-12-09 2016-07-07 アップル インコーポレイテッド 音声合成における同綴異音異義語の曖昧さの解消

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09204434A (ja) * 1996-01-24 1997-08-05 Fujitsu Ltd 音声合成装置、音声合成方法及び記録媒体
WO2010113396A1 (ja) * 2009-03-31 2010-10-07 日本電気株式会社 読み方判断装置、方法、プログラム、及びそのコンピュータ可読媒体、並びに音声合成装置
JP2016122183A (ja) * 2014-12-09 2016-07-07 アップル インコーポレイテッド 音声合成における同綴異音異義語の曖昧さの解消

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
佐久間 丈貴 外3名: "出現単語の概念関係を用いたテキストの誤り訂正", 第60回(平成12年前期)全国大会講演論文集(2) 人工知能と認知科学, JPN6021011657, 14 March 2000 (2000-03-14), JP, pages 2 - 93, ISSN: 0004476741 *
酒巻 智宏 外3名: "検索エンジンを用いた人名読みの推定", 2010年度人工知能学会全国大会(第24回)論文集, JPN6021011656, 9 June 2010 (2010-06-09), JP, pages 1 - 4, ISSN: 0004476740 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022215120A1 (ja) * 2021-04-05 2022-10-13 株式会社KPMG Ignition Tokyo 情報処理装置、情報処理方法、情報処理プログラム

Also Published As

Publication number Publication date
JP6881077B2 (ja) 2021-06-02

Similar Documents

Publication Publication Date Title
US7979268B2 (en) String matching method and system and computer-readable recording medium storing the string matching method
US8117026B2 (en) String matching method and system using phonetic symbols and computer-readable recording medium storing computer program for executing the string matching method
CN102549652B (zh) 信息检索装置
EP2643770A2 (en) Text segmentation with multiple granularity levels
JP2007226729A (ja) 訳語情報出力処理プログラム,処理方法および処理装置
JP5426710B2 (ja) 検索支援装置、検索支援方法およびプログラム
JP3372532B2 (ja) 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体
JP5642037B2 (ja) 検索装置、検索方法およびプログラム
JP6881077B2 (ja) 判別プログラム、判別装置及び判別方法
JP4845523B2 (ja) 文字処理装置、方法、プログラムおよび記録媒体
JP2008225846A (ja) 単語意味タグ付与装置および方法、プログラム並びに記録媒体
JP2007200252A (ja) 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体
CN1627289B (zh) 用于分析汉语的装置和方法
JP2009140113A (ja) 辞書編集装置、および辞書編集方法、並びにコンピュータ・プログラム
JP6805927B2 (ja) インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法
JP2001101184A (ja) 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体
JP5998779B2 (ja) 検索装置、検索方法、及びプログラム
JP2018147205A (ja) 情報処理装置及び情報処理プログラム
JP5262190B2 (ja) 入力補完装置、及び入力補完プログラム
JP5909123B2 (ja) 機械翻訳装置、機械翻訳方法およびプログラム
JP5533576B2 (ja) 情報作成装置、情報作成方法及びプログラム
JP2008257414A (ja) 情報選択支援システム、端末装置、情報選択支援装置、情報選択支援方法、プログラム
JP2010501927A (ja) コンテンツ検索システムを搭載した情報端末機
JP6511874B2 (ja) コンピュータプログラム、検索装置及び検索方法
JP2005234635A (ja) 文書要約装置および方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200310

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210406

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210419

R150 Certificate of patent or registration of utility model

Ref document number: 6881077

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150