JP7332486B2

JP7332486B2 - 記号列変換装置および記号列変換方法

Info

Publication number: JP7332486B2
Application number: JP2020001450A
Authority: JP
Inventors: 智弘山崎; 快行爰島
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2020-01-08
Filing date: 2020-01-08
Publication date: 2023-08-23
Anticipated expiration: 2040-01-08
Also published as: US11809831B2; JP2021111051A; US20210209314A1

Description

本発明の実施形態は、記号列変換装置および記号列変換方法に関する。

アルファベットなどの文字列を、特定の言語の読みに変換する技術が開示されている。例えば、アルファベット文字列に対する英語発音表記の辞書と、英語発音表記に対応する日本語読みが対応付けられた規則データと、を用いて、アルファベット文字列の日本語読みを出力する技術が開示されている。また、Ｓｅｑ２Ｓｅｑ（ｓｅｑｕｅｎｃｅ－ｔｏ－ｓｅｑｕｅｎｃｅ）の仕組みを用いることで、アライメント情報を用いずに直接的に英単語を構成する文字列を発音記号列に変換する方法が知られている。

特開２００９－１９９４３４号公報

しかし、従来技術では、アルファベットなどの入力記号列に含まれるどの部分が、何れの発音表記に対応するか、を示すアライメント情報が事前に必要となる。このようなアライメント情報は自動的に推定することが難しい。また、Ｓｅｑ２Ｓｅｑの仕組みを用いた場合であっても、変換精度にばらつきがあり、入力記号列から不自然な読みや発音などの出力記号列が出力される場合があった。すなわち、従来技術では、入力記号列に対応する出力記号列を精度良く特定することは困難であった。

実施形態の記号列変換装置は、生成部と、導出部と、特定部と、を備える。生成部は、入力記号と、前記入力記号を予め定めた変換条件に応じて変換した１または複数の出力記号と、を対応付けたルール情報に基づいて、１または複数の前記入力記号を含む入力記号列に対応する、１または複数の前記出力記号を含む複数の出力記号候補列を生成する。導出部は、複数の前記出力記号候補列の各々の信頼度を、学習モデルを用いて導出する。特定部は、最も高い信頼度の前記出力記号候補列を、前記入力記号列に対応する出力記号列として特定する。前記信頼度は、前記出力記号候補列と、前記入力記号列に対応する正解出力記号列と、の類似度である。

実施形態に係る記号列変換装置の機能的構成を示す模式図。実施形態に係るルール情報のデータ構成を示す模式図。実施形態に係る出力記号列の特定処理の流れを示す模式図。実施形態に係る編集距離の説明図。実施形態に係る関数の説明図。実施形態に係る導出部の機能ブロック図。実施形態に係る学習部の説明図。実施形態に係る記号列変換処理の流れを示すフローチャート。実施形態に係るハードウェア構成図。

以下に添付図面を参照して、記号列変換装置および記号列変換方法を詳細に説明する。

図１は、本実施形態の記号列変換装置１０の機能的構成の一例を示す模式図である。

記号列変換装置１０は、処理部２０と、記憶部２２と、通信部２４と、ＵＩ（ユーザ・インターフェース）部２６と、を備える。処理部２０と、記憶部２２と、通信部２４と、ＵＩ部２６とは、バス２８を介してデータまたは信号を授受可能に接続されている。

なお、記憶部２２、通信部２４、およびＵＩ部２６の少なくとも１つと、処理部２０とを、ネットワークを介して接続してもよい。すなわち、記憶部２２、通信部２４、およびＵＩ部２６の少なくとも１つを、記号列変換装置１０に対してネットワークを介して接続された外部装置に設けてもよい。また、処理部２０に含まれる後述する機能部の少なくとも１つを、該外部装置に設けた構成としてもよい。外部装置は、例えば、外部サーバなどである。

記憶部２２は、各種データを記憶する。記憶部２２は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、フラッシュメモリ等の半導体メモリ素子、ハードディスク、光ディスク等である。なお、記憶部２２は、記号列変換装置１０の外部に設けられた記憶装置であってもよい。また、記憶部２２は、記憶媒体であってもよい。具体的には、記憶媒体は、プログラムや各種情報を、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）やインターネットなどを介してダウンロードして記憶または一時記憶したものであってもよい。また、記憶部２２を、複数の記憶媒体から構成してもよい。

本実施形態では、記憶部２２は、ルール情報２２Ａと、学習モデル２２Ｂと、を記憶する。ルール情報２２Ａおよび学習モデル２２Ｂの詳細は後述する。

通信部２４は、ネットワークを介して外部装置と通信する。ＵＩ部２６は、ユーザによる操作入力を受付ける機能、および、各種の情報を出力する機能を備える。

例えば、ＵＩ部２６は、ディスプレイと、入力部と、を含む。ディスプレイは、各種の情報を表示する。ディスプレイは、例えば、公知の有機ＥＬ（Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ、投影装置などである。入力部は、ユーザからの各種指示を受付ける。入力部は、例えば、キーボード、マウス、タッチパネル、マイクロフォン、などである。なお、ＵＩ部２６を、入力機構と出力機構とを備えたタッチパネルで構成してもよい。また、ＵＩ部２６は、更に、音声を出力するスピーカを含む構成であってもよい。

処理部２０は、生成部２０Ａと、導出部２０Ｂと、特定部２０Ｃと、出力制御部２０Ｄと、を備える。生成部２０Ａ、導出部２０Ｂ、特定部２０Ｃ、および出力制御部２０Ｄの少なくとも１つは、例えば、１または複数のプロセッサにより実現される。例えば、上記各部は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち１つを実現してもよいし、各部のうち２以上を実現してもよい。

生成部２０Ａは、ルール情報２２Ａに基づいて、入力記号列に対応する複数の出力記号候補列を生成する。ルール情報２２Ａの詳細は後述する。

入力記号列とは、記号列変換装置１０で変換する対象の記号列である。入力記号列は、１または複数の入力記号から構成される。入力記号は、例えば、アルファベットなどの文字または記号である。

入力記号列は、例えば、表音文字列、表意文字および表語文字の少なくとも一方を含む文字列、表語文字を含む文字列、正規化前の文字列、などである。

表音文字列とは、表音文字の列である。表音文字とは、一つの文字で音素または音節を表す文字体系の文字である。表音文字列は、例えば、英語、タイ語、などの言語の文字列である。表音文字列を構成する１または複数の入力記号は、例えば、アルファベットなどである。

表意文字および表語文字の少なくとも一方を含む文字列とは、表意文字および表語文字の少なくとも一方を含む文字の列である。表意文字とは、ひとつひとつの文字が意味を表す文字体系の文字である。表意文字は、例えば、古代エジプト文字、などである。表語文字とは、一つ一つの文字によって、言語の一つ一つの語や形態素を表す文字体系の文字である。表語文字は、例えば、漢字などである。なお、漢字の一部は、表意文字に分類される場合がある。すなわち、表音文字および表語文字の少なくとも一方を含む文字列を構成する入力記号は、例えば、漢字、古代エジプト文字、などである。

正規化前の文字列とは、正解の文字列に正規化される前の文字列、または、意味を成す正しい文字の配列または正しい組合せに正規化される前の文字列である。正規化前の文字列は、例えば、表記揺れ、および、語形変化、の少なくとも一方を含む文字列である。正規化前の文字列を構成する入力記号は、例えば、数字、漢字、ひらがな、カタカナ、記号、などである。

出力記号候補列とは、入力記号列に対応する出力記号列の候補となる文字列である。出力記号列は、１または複数の出力記号から構成される。出力記号は、出力記号列を構成する文字または記号であり、出力記号列の種類によって異なる。

例えば、入力記号列が表音文字列である場合には、該入力記号列に対応する出力記号列は、音素列である。音素列は、例えば、表音文字列の発音である。また、入力記号列が表意文字および表語文字の少なくとも一方を含む文字列である場合には、該入力記号列に対応する出力記号列は、該文字列の読みを示す記号列である。文字列の読みは、文字列が日本語である場合には、漢字などを含む文字列の振り仮名であってもよい。

また、入力記号列が正規化前の文字列である場合には、出力記号列は正規化された文字列である。具体的には、正規化前の文字列が「ｇｏｔ」である場合、正規化された文字列は、例えば、「ｇｅｔ」である。

生成部２０Ａは、ルール情報２２Ａに基づいて、入力記号列に対応する出力記号の候補である複数の出力記号候補列を生成する。

ルール情報２２Ａは、入力記号と、該入力記号を予め定めた変換条件に応じて変換した１または複数の出力記号と、を対応付けたデータベースである。なお、ルール情報２２Ａのデータ形式は、データベースに限定されない。

図２は、ルール情報２２Ａのデータ構成の一例を示す模式図である。図２には、入力記号列が表音文字列であり出力記号列が発音の音素列である場合の、入力記号および出力記号の一例を示した。具体的には、図２には、入力記号がアルファベットであり、出力記号が発音記号である場合を一例として示した。発音記号は、発音の音素を表す出力記号の一例である。なお、図２には、入力記号が、フォニックスと称される綴り字である場合を一例として示した。

変換条件は、対応する入力記号を、対応する出力記号に変換するときの条件である。言い換えると、変換条件は、入力記号列に含まれる入力記号の各々に対して、前後にどのような他の入力記号があると、どのような出力記号が出力されるか、をルールとして規定したものである。

例えば、図２中に示される変換条件「後に子音＋Ｅがある」は、対応する入力記号「Ａ」を含む入力記号列における該「Ａ」の後に子音と「Ｅ」が連続して配列されている場合に、出力記号として「ｅｉ」を出力することを意味している。

生成部２０Ａは、入力記号列を構成する複数の入力記号を先頭から順に読取り、変換条件に応じて変換することで、該入力列に対応する出力記号を含む出力記号列を生成する。先頭から順に読取る、とは、入力記号列の読み方向に沿って先頭から順に入力記号を読取る事を意味する。

なお、図２に示すように、ルール情報２２Ａには、１つの入力記号に対して、１または複数の変換条件が対応付けられている。

生成部２０Ａは、入力記号列を構成する入力記号を先頭から順に読取り、読取った入力記号を、ルール情報２２Ａを用いて、対応する１または複数の変換条件に応じて変換する。この変換処理により、生成部２０Ａは、入力記号列を構成する入力記号ごとに、１または複数の出力記号を得る。このため、生成部２０Ａは、１つの入力記号列から、変換条件の組合せの異なる複数の出力記号候補列を生成する。

例えば、入力記号列３０が「ＢＯＯＫ」であった場合を想定する。この場合、ルール情報２２Ａに示すように、入力記号「Ｂ」に対応する出力記号は「ｂ」である。入力記号「ＯＯ」に対応する出力記号は「ｕ」または「ｕ：」である。入力記号「Ｋ」に対応する出力記号は「ｋ」である。このため、この場合、生成部２０Ａは、入力記号列３０である「ＢＯＯＫ」から、複数の出力記号候補列３２として、「ｂｕｋ」および「ｂｕ：ｋ」を生成することとなる。

図１に戻り説明を続ける。導出部２０Ｂは、複数の出力記号候補列の各々の信頼度を、学習モデル２２Ｂを用いて導出する。特定部２０Ｃは、最も高い信頼度の出力記号候補列を、入力記号列に対応する出力記号列として特定する。

図３は、処理部２０による、入力記号列３０から出力記号列３６を特定する処理の流れの一例を示す模式図である。

生成部２０Ａは、ルール情報２２Ａを用いて入力記号列３０から複数の出力記号候補列３２を生成する（ステップＳ１，Ｓ２，Ｓ３）。図３には、１つの入力記号列３０から３つの出力記号候補列３２（出力記号候補列３２Ａ、出力記号候補列３２Ｂ、出力記号候補列３２Ｃ）を生成した場合を一例として示した。

導出部２０Ｂは、複数の出力記号候補列３２（出力記号候補列３２Ａ～出力記号候補列３２Ｃ）の各々の信頼度３４（信頼度３４Ａ～３４Ｃ）を、学習モデル２２Ｂを用いて導出する（ステップＳ４，Ｓ５，Ｓ６）。

特定部２０Ｃは、複数の出力記号候補列３２（出力記号候補列３２Ａ～出力記号候補列３２Ｃ）の内、信頼度３４の最も高い出力記号候補列３２（例えば、出力記号候補列３２Ａ）を、出力記号列３６として特定する（ステップＳ７，Ｓ８，Ｓ９）。

導出部２０Ｂおよび特定部２０Ｃについて詳細を説明する。

導出部２０Ｂは、入力記号列３０と出力記号候補列３２との１対１の対からなる入力データから信頼度３４を導出するための学習モデル２２Ｂを用いて、信頼度３４を導出する。

すなわち、学習モデル２２Ｂは、入力記号列３０と出力記号候補列３２との１対１の対からなる入力データから、信頼度３４を導出するためのニューラルネットワークモデルである。学習モデル２２Ｂは、予め学習され、記憶部２２に予め記憶されている。

信頼度３４は、出力記号候補列３２と正解出力記号列との類似度を示す。正解出力記号とは、入力記号列３０に対応する正解の出力記号列である。

出力記号候補列３２と正解出力記号列との類似度は、出力記号候補列３２と正解出力記号列との距離が近いほど高い値である。距離としては、記号の並びの近さに基づく編集距離や音素・発音の近さに基づく音素距離などを用いることができる。本実施形態では、編集距離および音素距離は、出力記号候補列３２と正解出力記号列とが完全一致する場合に“０”であり、完全一致する場合に“１”であり、不一致からら完全一致に近づくほど“０”に近づく値である。

また、本実施形態では、類似度の最小値は“０”であり、類似度の最大値が“１”である場合を一例として説明する。類似度の最小値は、非類似を示し、類似度の最大値は、完全に一致する場合を示す。

編集距離とは、出力記号候補列３２正解出力記号列とがどの程度異なっているかを示す尺度である。

例えば、出力記号候補列３２と正解出力記号列との編集距離は、含まれる出力記号同士の距離を表す。この場合、出力記号候補列３２と正解出力記号列との編集距離は、出力記号候補列３２を正解出力記号列に変換するために必要な文字（入力記号）の操作の回数を示す。文字の操作とは、挿入、削除、および置換の何れかを意味する。

図４は、出力記号候補列３２と正解出力記号列との編集距離の一例の説明図である。例えば、出力記号候補列３２が“ｋｉｔｔｅｎ”であり、正解出力記号列が“ｓｉｔｔｉｎｇ”である場合を想定する。

この場合の操作の回数は、“ｋｉｔｔｅｎ”を“ｓｉｔｔｉｎｇ”に変換するために必要な操作の回数は、１文字目の“ｋ”を“ｓ”に置換、５文字目の“ｅ”を“ｉ”に置換、７文字目に“ｇ”を挿入、の合計３回である。このため、この場合、出力記号候補列３２と正解出力記号列との編集距離は、“３”となる。

ここで、出力記号候補列３２をＳとし、その文字数をＬｅｎ（Ｓ）、正解出力記号列をＴとし、その文字数をＬｅｎ（Ｔ）と仮定する。すると、ＳとＴとの編集距離Ｄ（Ｓ，Ｔ）は、下記式（１）で表される。Ｓを１文字ずつ全て削除し、Ｔを１文字ずつ全て追加していくと、必ずＳからＴになるためである。

０≦Ｄ（Ｓ，Ｔ）≦Ｌｅｎ（Ｓ）＋Ｌｅｎ（Ｔ）・・・式（１）

式（１）中、Ｄ（Ｓ，Ｔ）は、出力記号候補列３２と正解出力記号列との編集距離を表す。Ｌｅｎ（Ｓ）およびＬｅｎ（Ｔ）は、上記と同様である。

このため、上記式（１）が成り立つと仮定すると、類似度は、０以上１以下の範囲の値で表される。

Ｃ（Ｓ，Ｔ）＝１－Ｄ（Ｓ，Ｔ）／（Ｌｅｎ（Ｓ）＋Ｌｅｎ（Ｔ））・・・式（２）

上記式（２）中、Ｃ（Ｓ，Ｔ）は、出力記号候補列３２と正解出力記号列との類似度を表す。

なお、編集距離は、出力記号候補列３２と正解出力記号列との各々について、含まれる出力記号同士の距離を表す形態に限定されない。例えば、編集距離は、音節ごとの距離を表すものであってもよい。

一方、音素距離とは、音素の距離または発音の距離を表す。音素距離は、入力記号列３０と出力記号候補列３２との音素または発音がどの程度異なっているかを示す尺度である。例えば、出力記号候補列３２と正解出力記号列との音素距離は、音の特徴量が近いほど小さい値であり、音の特徴量が遠いほど大きい値となる。例えば日本語のダ行音はラ行音に近いことが知られているが、一般的に音の特徴量は、公知の方法で導出される値であればよい。

また、出力記号候補列３２と正解出力記号列との音素距離には、出力記号候補列３２と正解出力記号列との各々の合成音声の、ユーザによる音の近さの入力結果を用いてもよい。この場合、導出部２０Ｂは、出力記号候補列３２と正解出力記号列との各々の合成音声をスピーカから出力すればよい。そして、導出部２０Ｂは、ユーザによるＵＩ部２６の操作指示によって入力された音の近さの入力結果を、音素距離として用いればよい。なお、導出部２０Ｂは、該入力結果が一致する音を示す場合を“０”とし、完全に不一致な音を示す場合を“１”とし、不一致から一致する音に近いほど“０”に近づく値に変換した値を、音素距離として用いればよい。

例えば、入力記号列３０が「ＢＯＯＫ」であった場合を想定する。この場合、上述したように、生成部２０Ａは、ルール情報２２Ａを用いることで、入力記号列３０である「ＢＯＯＫ」から、複数の出力記号候補列３２として「ｂｕｋ」および「ｂｕ：ｋ」を生成する。

ここで、入力記号列３０「ＢＯＯＫ」に対する正解出力記号列は「ｂｕｋ」である。このめ、この場合、出力記号候補列３２である「ｂｕｋ」の編集距離は“０”であり、上記式（２）から類似度は“１”となる。また、出力記号候補列３２である「ｂｕ：ｋ」の編集距離は、出力記号「：」のみが異なることから“１”である。この場合、出力記号候補列３２である「ｂｕ：ｋ」の類似度は、上記式（２）により、１－１／（３＋４）＝０．８６となる。

なお、入力記号列３０が正規化前の文字列であり、表記揺れを含む文字列である場合を想定する。この場合、出力記号候補列３２と正解出力記号列との編集距離および音素距離として、例えば、出力記号候補列３２と正解出力記号列との読みの近さ、または、異表記の近さを用いてもよい。

そして、導出部２０Ｂは、類似度を、信頼度３４として用いればよい。すなわち、学習モデル２２Ｂは、入力記号列３０の出力記号候補列３２と、該入力記号列３０の正解の出力記号列３６である正解出力記号列と、の編集距離および音素距離の少なくとも一方が近いほど高い類似度を、信頼度３４として導出するモデルであればよい。

なお、学習モデル２２Ｂは、特有の関数を用いて類似度を変換した値を、信頼度３４として導出するためのモデルであることが好ましい。

特有の関数は、上記類似度の変化率に対する信頼度３４の変化率が、類似度が完全一致を示す値に近づくほど高くなる関数である。類似度が完全一致を示す値は、本実施形態では、“１”である。

図５は、特有の関数の一例である関数Ｘを示す線図の説明図である。図５中、横軸は、出力記号候補列３２と正解出力記号列との類似度を示す。図５中、縦軸は、出力記号候補列３２の信頼度３４を示す。信頼度３４“１”は、類似度“１”に対応する。類似度“１”とは、出力記号候補列３２と正解出力記号列とが完全一致であることを意味する。

図５に示すように、関数Ｘは、類似度の変化率αに対する信頼度３４の変化率αが、類似度が完全一致を示す“１”に近づくほど高くなる関数である。例えば、関数Ｘは、下記式（３）によって表される。

ｆ（ｘ）＝（１０２４^ｘ－１）／１０２３・・・式（３）

上記式（１）および式（２）を用いて類似度を算出した場合を想定する。上述したように、Ｃ（Ｓ，Ｔ）は類似度であり、Ｄ（Ｓ，Ｔ）は編集距離である。この場合、Ｃ（Ｓ，Ｔ）が“０”（すなわち、完全一致）の場合とＤ（Ｓ，Ｔ）が“１”（すなわち、１文字異なる場合）の場合との類似度の差と、Ｄ（Ｓ，Ｔ）が“１”の場合とＤ（Ｓ，Ｔ）が“２”の場合との類似度の差と、が等しくなってしまう。このような場合であっても、関数Ｘを用いて類似度を補正した値を信頼度３４として用いることで、近似する類似度の値を、より差のある値である信頼度３４に補正することができる。

このため、出力記号候補列３２の信頼度３４は、出力記号候補列３２の正解出力記号列との類似度が高いほど、少しの類似度の変化で大きな差を示す値となる。このため、導出部２０Ｂは、正解出力記号列との類似度の高い複数の出力記号候補列３２を、より弁別しやすい信頼度３４で表すことが可能となる。

例えば、入力記号列３０が「ＢＯＯＫ」であった場合を想定する。この場合、上述したように、生成部２０Ａは、ルール情報２２Ａを用いることで、入力記号列３０である「ＢＯＯＫ」から、複数の出力記号候補列３２として「ｂｕｋ」および「ｂｕ：ｋ」を生成する。また、上述したように、「ｂｕｋ」の類似度は“１”であり、「ｂｕ：ｋ」の類似度は“０．８６”である。

そして、上記関数Ｘを適用することで、「ｂｕｋ」の信頼度３４として“１”が導出され、「ｂｕ：ｋ」の信頼度３４として“０．３７”が導出されることとなる。

このため、導出部２０Ｂは、解出力記号列との類似度が完全一致する出力記号候補列３２と、完全一致しない出力記号候補列３２と、を正確に区別可能な信頼度３４を導出することができる。また、導出部２０Ｂは、記号列変換装置１０は、正解出力記号列との類似度がより高い出力記号候補列３２について、他の出力記号候補列３２と容易に区別可能な信頼度３４を導出することができる。

図１に戻り説明を続ける。導出部２０Ｂは、入力記号列３０と出力記号候補列３２との１対１の対からなる入力データと、学習モデル２２Ｂと、を用いて、信頼度３４を導出する。

図６は、導出部２０Ｂの一例を示す機能ブロック図である。

導出部２０Ｂは、第１エンコード部４０Ａと、第２エンコード部４０Ｂと、信頼度推定部４０Ｃと、を備える。

第１エンコード部４０Ａは、入力記号列３０をエンコードする再帰型ニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ：ＲＮＮ）である。第１エンコード部４０Ａは、入力記号列３０をエンコードし、エンコード結果を信頼度推定部４０Ｃへ出力する。入力記号列３０のエンコード結果は、例えば、ベクトル表現の数値列によって表される。

第２エンコード部４０Ｂは、出力記号候補列３２をエンコードするＲＮＮである。第２エンコード部４０Ｂは、出力記号候補列３２をエンコードし、エンコード結果を信頼度推定部４０Ｃへ出力する。出力記号候補列３２のエンコード結果は、例えば、ベクトル表現の数値列によって表される。

信頼度推定部４０Ｃは、入力記号列３０のエンコード結果と、出力記号候補列３２のエンコード結果と、学習モデル２２Ｂと、を用いて、出力記号候補列３２の信頼度３４を導出する。すなわち、信頼度推定部４０Ｃは、入力記号列３０のエンコード結果と、出力記号候補列３２のエンコード結果と、を入力データとして学習モデル２２Ｂへ入力することで、学習モデル２２Ｂからの出力データとして信頼度３４を導出する。

図３に戻り説明を続ける。特定部２０Ｃは、生成部２０Ａで生成された複数の出力記号候補列３２（出力記号候補列３２Ａ～出力記号候補列３２Ｃ）の内、導出部２０Ｂで導出された信頼度３４（信頼度３４Ａ～信頼度３４Ｃ）の最も高い出力記号候補列３２を特定する。図３に示す例の場合、特定部２０Ｃは、出力記号候補列３２Ａ～出力記号候補列３２Ｃの内、信頼度３４の最も高い出力記号候補列３２Ａを特定する。そして、特定部２０Ｃは、特定した出力記号候補列３２Ａを、入力記号列３０に対応する出力記号列３６として特定する。

図１に戻り説明を続ける。出力制御部２０Ｄは、特定部２０Ｃによって特定された出力記号列３６を、ＵＩ部２６へ出力する。ＵＩ部２６は、特定された出力記号列３６を表示する。このため、出力制御部２０Ｄは、入力記号列３０に対応する高精度な出力記号列３６を、ユーザに提供することができる。

なお、出力制御部２０Ｄは、特定部２０Ｃによって特定された出力記号列３６を、通信部２４を介して外部装置へ出力してもよい。この場合、出力制御部２０Ｄは、入力記号列３０に対応する高精度な出力記号列３６を、外部装置へ提供することができる。

また、出力制御部２０Ｄは、特定部２０Ｃによって特定された出力記号列３６を、記憶部２２へ記憶してもよい。

次に、学習モデル２２Ｂの学習について説明する。上述したように、学習モデル２２Ｂは予め学習され、予め記憶部２２に記憶されている。学習モデル２２Ｂは、記号列変換装置１０で予め学習してもよい。例えば、導出部２０Ｂを学習部として機能させてもよい。

図７は、学習部２１Ｂの一例の説明図である。本実施形態では、学習モデル２２Ｂの学習時に、導出部２０Ｂが学習部２１Ｂとして機能する形態を一例として説明する。

学習部２１Ｂは、第１エンコード部４０Ａと、第２エンコード部４０Ｂと、信頼度推定部４０Ｃと、を備える。第１エンコード部４０Ａ、第２エンコード部４０Ｂ、および信頼度推定部４０Ｃは、上記と同様である。

但し、学習モデル２２Ｂの学習時には、入力記号列３０と出力記号候補列３２との対として、教師データとなる入力記号列３０と出力記号候補列３２との対を複数用いる。教師データとなる対とは、真の信頼度が予め導出済の出力記号候補列３２を含む対である。真の信頼度とは、該出力記号候補列３２の正解の信頼度である。そして、信頼度推定部４０Ｃは、以下の処理を実行する。

詳細には、信頼度推定部４０Ｃは、入力記号列３０のエンコード結果と、出力記号候補列３２のエンコード結果と、生成済の学習モデル２２Ｂと、を用いて、出力記号候補列３２の信頼度３４を仮の信頼度３４として導出する。

そして、信頼度推定部４０Ｃは、導出した仮の信頼度３４が、該出力記号候補列３２の真の信頼度となるように、出力記号候補列３２のエンコード結果を調整する。

更に、信頼度推定部４０Ｃは、入力記号列３０のエンコード結果と、調整された出力記号候補列３２のエンコード結果と、導出した仮の信頼度３４と、真の信頼度と、を用いて学習モデル２２Ｂの重み値を更新する。この更新処理によって、学習部２１Ｂは、学習モデル２２Ｂを学習する。学習モデル２２Ｂの学習には、公知の学習方法を用いればよい。

なお、学習部２１Ｂを、導出部２０Ｂとは別体として構成してもよい。この場合、記号列変換装置１０は、学習部２１Ｂを更に備えた構成とすればよい。また、学習部２１Ｂは、外部装置に設けられた構成であってもよい。

次に、本実施形態の記号列変換装置１０が実行する記号列変換処理の流れの一例を説明する。

図８は、記号列変換装置１０が実行する記号列変換処理の流れの一例を示す、フローチャートである。

生成部２０Ａが、記号列変換対象の入力記号列３０を取得する（ステップＳ１００）。例えば、生成部２０Ａは、記憶部２２から入力記号列３０を取得する。なお、生成部２０Ａは、通信部２４を介して外部装置から入力記号列３０を取得してもよい。

次に、生成部２０Ａは、ルール情報２２Ａを用いて、ステップＳ１００で取得した入力記号列３０から複数の出力記号候補列３２を生成する（ステップＳ１０２）。

導出部２０Ｂは、ステップＳ１０２で生成された複数の出力記号候補列３２の各々の信頼度３４を、学習モデル２２Ｂを用いて導出する（ステップＳ１０４）。

特定部２０Ｃは、ステップＳ１０２で生成された複数の出力記号候補列３２の内、ステップＳ１０４で導出された信頼度３４の最も高い出力記号候補列３２を、出力記号列３６として特定する（ステップＳ１０６）。

出力制御部２０Ｄは、ステップＳ１０６で特定された出力記号列３６をＵＩ部２６または外部装置へ出力する（ステップＳ１０８）。そして、本ルーチンを終了する。

以上説明したように、本実施形態の記号列変換装置１０は、生成部２０Ａと、導出部２０Ｂと、特定部２０Ｃと、を備える。生成部２０Ａは、入力記号と、入力記号を予め定めた変換条件に応じて変換した１または複数の出力記号と、を対応付けたルール情報２２Ａに基づいて、１または複数の入力記号を含む入力記号列３０に対応する、１または複数の出力記号を含む複数の出力記号候補列３２を生成する。導出部２０Ｂは、複数の出力記号候補列３２の各々の信頼度３４を、学習モデル２２Ｂを用いて導出する。特定部２０Ｃは、最も高い信頼度３４の出力記号候補列３２を、入力記号列３０に対応する出力記号列３６として特定する。

ここで、従来技術では、入力記号列３０に対して不自然な出力記号列が特定される場合があった。

例えば、従来技術では、アルファベットなどの入力記号列に含まれるどの部分が、何れの発音表記に対応するか、を示すアライメント情報が事前に必要であった。このようなアライメント情報は自動的に推定することが難しい。このため、従来技術では、入力記号列に対して、不自然な日本語読みなどの出力記号列が出力される場合があった。

また、近年、ニューラルネットワークに入出力のペアを大量に与えて学習させることで、書記素分割を行なわずに、入力記号列３０から出力記号列を特定する試みが知られている。具体的には、ディープラーニングの自然言語処理で用いられるＳｅｑ２Ｓｅｑの仕組みを用いることで、アライメント情報を用いずに直接的に英単語を構成する文字列を発音記号列に変換する方法が知られている。

しかし、Ｓｅｑ２Ｓｅｑの仕組みを用いた場合であっても、変換精度にばらつきがあり、入力記号列３０から不自然な出力記号列が出力される場合があった。

一方、本実施形態の記号列変換装置１０は、ルール情報２２Ａを用いて、入力記号列３０から複数の出力記号候補列３２を生成する。そして、記号列変換装置１０は、複数の出力記号候補列３２の各々の信頼度３４を、学習モデル２２Ｂを用いて導出する。そして、記号列変換装置１０は、最も信頼度３４の高い出力記号候補列３２を、出力記号列３６として特定する。

このように、本実施形態の記号列変換装置１０は、ルール情報２２Ａを用いて、１つの入力記号列３０から複数の出力記号候補列３２を生成する。そして、記号列変換装置１０は、これらの複数の出力記号候補列３２の各々と正解出力記号列との類似度を反映した信頼度３４を、学習モデル２２Ｂを用いて導出する。そして、記号列変換装置１０は、最も信頼度３４の高い１つの出力記号候補列３２を、出力記号列３６として特定する。

このため、本実施形態の記号列変換装置１０は、複数の出力記号候補列３２の内、最も尤度の高い出力記号候補列３２を、出力記号列３６として特定することができる。よって、記号列変換装置１０は、入力記号列３０に対して不自然な、読み、発音、正規化された文字列、などの出力記号列３６が特定されることを抑制することができる。

従って、本実施形態の記号列変換装置１０は、入力記号列３０に対応する出力記号列３６を精度良く特定することができる。

具体的には、本実施形態の記号列変換装置１０は、英語やタイ語などの表音文字からなる入力記号列３０に対して、発音などの出力記号列３６を高精度に特定することができる。また、本実施形態の記号列変換装置１０は、表記揺れ、または、語形変化などを含む正規化前の文字列である入力記号列３０に対して、表記揺れまたは語形変化を含まない正解の文字列である出力記号列３６を高精度に特定することができる。

また、本実施形態の記号列変換装置１０は、特有の関数Ｘを用いて類似度を変換した値を、信頼度３４として導出する学習モデル２２Ｂを用いることができる。図５を用いて説明したように、関数Ｘは、類似度の変化率に対する信頼度３４の変化率が、類似度が完全一致を示す値に近づくほど高くなる関数である。

このため、本実施形態の記号列変換装置１０は、正解出力記号列との類似度が完全一致する出力記号候補列３２と、完全一致しない出力記号候補列３２と、を正確に区別可能な信頼度３４を導出することができる。このため、記号列変換装置１０は、正解出力記号列に完全一致する出力記号候補列３２を、出力記号列３６として高精度に特定することができる。また、記号列変換装置１０は、より類似度の高い出力記号候補列３２を、高精度に出力記号列３６として特定することができる。

次に、上記実施形態における記号列変換装置１０の、ハードウェア構成の一例を説明する。

図９は、上記実施形態に係る記号列変換装置１０の、ハードウェア構成図の一例である。

記号列変換装置１０は、ＣＰＵ５２などの制御装置と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）５４やＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）５６やＨＤＤ（ハードディスクドライブ）５８などの記憶装置と、各種機器とのインターフェースであるＩ／Ｆ部５０と、各部を接続するバス６０とを備えており、通常のコンピュータを利用したハードウェア構成となっている。

記号列変換装置１０では、ＣＰＵ５２が、ＲＯＭ５４からプログラムをＲＡＭ５６上に読み出して実行することにより、上記各部がコンピュータ上で実現される。

なお、記号列変換装置１０で実行される上記各処理を実行するためのプログラムは、ＨＤＤ５８に記憶されていてもよい。また、記号列変換装置１０で実行される上記各処理を実行するためのプログラムは、ＲＯＭ５４に予め組み込まれて提供されていてもよい。

また、記号列変換装置１０で実行される上記処理を実行するためのプログラムは、インストール可能な形式または実行可能な形式のファイルでＣＤ－ＲＯＭ、ＣＤ－Ｒ、メモリカード、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）、フレキシブルディスク（ＦＤ）等のコンピュータで読み取り可能な記憶媒体に記憶されてコンピュータプログラムプロダクトとして提供されるようにしてもよい。また、記号列変換装置１０で実行される上記処理を実行するためのプログラムを、インターネットなどのネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するようにしてもよい。また、記号列変換装置１０で実行される上記処理を実行するためのプログラムを、インターネットなどのネットワーク経由で提供または配布するようにしてもよい。

なお、上記には、本発明の実施形態を説明したが、上記実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。この実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０記号列変換装置
２０Ａ生成部
２０Ｂ導出部
２０Ｃ特定部
２２Ａルール情報
２２Ｂ学習モデル

Claims

入力記号と、前記入力記号を予め定めた変換条件に応じて変換した１または複数の出力記号と、を対応付けたルール情報に基づいて、１または複数の前記入力記号を含む入力記号列に対応する、１または複数の前記出力記号を含む複数の出力記号候補列を生成する生成部と、
複数の前記出力記号候補列の各々の信頼度を、学習モデルを用いて導出する導出部と、
最も高い信頼度の前記出力記号候補列を、前記入力記号列に対応する出力記号列として特定する特定部と、
を備え、
前記信頼度は、
前記出力記号候補列と、前記入力記号列に対応する正解出力記号列と、の類似度である、
記号列変換装置。
前記導出部は、
前記入力記号列と前記出力記号候補列との対からなる入力データから前記信頼度を導出するための前記学習モデルを用いて、前記信頼度を導出する、
請求項１に記載の記号列変換装置。
前記類似度は、
前記出力記号候補列と前記正解出力記号列との編集距離および音素距離の少なくとも一方が近いほど高い、
請求項１または請求項２に記載の記号列変換装置。
前記学習モデルは、
前記類似度の変化率に対する前記信頼度の変化率が、前記類似度が完全一致を示す値に近づくほど高くなる関数を用いて、前記類似度を変換した値を、前記信頼度として導出するためのモデルである、
請求項１～請求項３の何れか１項に記載の記号列変換装置。
前記学習モデルを学習する学習部を備える、
請求項１～請求項４の何れか１項に記載の記号列変換装置。
前記入力記号列と該入力記号列に対応する前記出力記号列とは、表音文字列と音素列、表意文字および表語文字の少なくとも一方を含む文字列と該文字列の読みを示す記号列、正規化前の文字列と正規化された文字列、である、
請求項１～請求項５の何れか１項に記載の記号列変換装置。
コンピュータによって実行される記号列変換方法であって、
入力記号と、前記入力記号を予め定めた変換条件に応じて変換した１または複数の出力記号と、を対応付けたルール情報に基づいて、１または複数の前記入力記号を含む入力記号列に対応する、１または複数の前記出力記号を含む複数の出力記号候補列を生成するステップと、
複数の前記出力記号候補列の各々の信頼度を、学習モデルを用いて導出するステップと、
最も高い信頼度の前記出力記号候補列を、前記入力記号列に対応する出力記号列として特定するステップと、
を含み、
前記信頼度は、前記出力記号候補列と、前記入力記号列に対応する正解出力記号列と、の類似度である、
記号列変換方法。