JP7115187B2

JP7115187B2 - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP7115187B2
Application number: JP2018182652A
Authority: JP
Inventors: 征二松本
Original assignee: Dai Nippon Printing Co Ltd
Current assignee: Dai Nippon Printing Co Ltd
Priority date: 2018-09-27
Filing date: 2018-09-27
Publication date: 2022-08-09
Anticipated expiration: 2038-09-27
Also published as: JP2020052819A

Description

本発明は、情報処理装置、情報処理方法及びプログラムに関する。

近年、電子書籍の読み上げ機能、ロボットの音声発話機能、車両に搭載されたナビゲーション装置における音声案内機能等のように、文章を音声により再生する種々のシステムが提案されている。特許文献１には、容量の制限された辞書を参照しながらも、配信された文字データを適切に解析し、該文字データを読み上げる文章読み上げ装置が開示されている。

特開２００５－２０８４２１号公報

しかしながら、例えば日本語の文章では、文脈により文章内の漢字の読み仮名が変わる場合がある。従来の技術では、漢字に複数の読み仮名の候補がある場合、コンピュータは文脈によって変わる読み仮名を適切に選択できず、漢字の読み間違いが起こる恐れがあった。

一つの側面では、漢字の読み間違いを低減することが可能な情報処理装置等を提供することにある。

一つの側面に係る情報処理装置は、漢字を含む第１言語の対象文を取得する取得部と、前記第１言語の文章の読みを学習済みの学習済みモデルを用いて、前記対象文の読みを推定する推定部と、前記対象文に含まれる前記漢字に対して複数の読みが推定された場合、前記対象文を、前記第１言語と異なる第２言語に翻訳した翻訳文に変換する変換部と、前記翻訳文から、前記漢字に対応する語句を抽出する抽出部と、抽出した前記語句を前記第１言語の語句に変換する第２変換部と、変換後の語句に基づき、前記複数の読みから前記漢字の読みを選択する選択部とを備えることを特徴とする。

一つの側面では、漢字の読み間違いを低減することが可能となる。

音声生成システムの概要を示す説明図である。サーバの構成例を示すブロック図である。文章ＤＢのレコードレイアウトの一例を示す説明図である。漢字ごとに複数の読み仮名の候補がある場合の読み仮名の選択処理を説明する説明図である。音声生成処理の処理手順を示すフローチャートである。音声生成処理の処理手順を示すフローチャートである。実施形態２のサーバの構成例を示すブロック図である。実施形態２の文章ＤＢのレコードレイアウトの一例を示す説明図である。読み仮名ＤＢのレコードレイアウトの一例を示す説明図である。専用辞書を用いて読み仮名を取得する際の処理手順を示すフローチャートである。

以下、本発明をその実施形態を示す図面に基づいて詳述する。

（実施形態１）
実施形態１は、漢字を含む日本語（第１言語）の対象文を音声に変換して出力する場合に、対象文を日本語と異なる言語（第２言語）に翻訳した翻訳文を参照しながら漢字の読み仮名を特定することにより、読み間違いを低減する形態に関する。図１は、音声生成システムの概要を示す説明図である。本実施形態のシステムは、情報処理装置１、翻訳情報処理装置２、及び端末３を含み、各装置はインターネット等のネットワークＮを介して情報の送受信を行う。

情報処理装置１は、読み上げ対象とする対象文の取得、漢字に対する読み仮名の推定、対象文の他言語への変換等、種々の情報処理、情報記憶及び情報の送受信を行う情報処理装置であり、例えばサーバ装置、パーソナルコンピュータ等である。本実施形態において情報処理装置１はサーバ装置であるものとし、以下では簡潔のためサーバ１と読み替える。

翻訳情報処理装置２は、多言語間の翻訳を行うシステムを搭載している情報処理装置であり、例えばサーバ装置、パーソナルコンピュータ等である。なお、翻訳情報処理装置２は外部の翻訳システムまたは翻訳サイト等であっても良く、またはサーバ１内の翻訳機能として実装されても良い。翻訳情報処理装置２を通じて、日本語と英語、日本語と中国語、英語と韓国語等の翻訳を行うことが可能となる。本実施形態において、翻訳情報処理装置２はサーバ装置であるものとし、以下では簡潔のため翻訳サーバ２と読み替える。

端末３は、本システムを利用して文章の音声再生サービスを受けるユーザの端末装置であり、例えば多機能端末、パーソナルコンピュータ等である。サーバ１は、端末３からの出力要求を受けて対象文を音声に変換し、変換後の音声データを端末３に配信して再生させる。

続いて、日本語と異なる言語を用いて読み間違いを低減する処理の流れを説明する。サーバ１は、漢字を含む日本語で記述された対象文を取得し、日本語文章の読みを学習済みの学習済みモデルを用いて、取得した対象文に含まれる漢字の読み仮名を推定する。学習済みモデルは所謂言語モデルであり、前後の文脈から該当語句の読み仮名、品詞等を推定可能なモデルデータである。本実施形態では、学習済みモデルはディープラーニングにより構築（生成）された識別器であり、例えばＲＮＮ（Recurrent Neural Network；再帰型ニューラルネットワーク）であるものとして説明する。

なお、学習済みモデルはＲＮＮに限定されるものではなく、例えばその他のニューラルネットワーク、Ｎ－ｇｒａｍモデル、隠れマルコフモデル（Hidden Markov Model）、形態素解析（Morphological Analysis）等であっても良い。

サーバ１は、対象文を所定単位の語句（例えば形態素）に分割して各語句を学習済みモデルに入力し、語句ごとに品詞、属性及び読み仮名を付与する（図４参照）。なお、属性は日本語の語句を概念的に分類した区分であり、例えば時間、場所、人、物、事等の意味的区分である。なお、日本語語句の属性を学習済みモデルに学習させることができない場合、サーバ１は、概念辞書（所謂オントロジー）のような外部ＤＢを参照して属性を識別しても良い。

サーバ１は、一の漢字に対して複数の読み仮名の候補があった場合、当該漢字の読みに揺らぎがあると判定する。なお、以下の説明では便宜上、当該漢字を「対象漢字」とも呼ぶ。漢字の読みに揺らぎがあると判定した場合、サーバ１は、対象文を翻訳サーバ２に送信する。翻訳サーバ２は、サーバ１から送信された対象文を日本語と異なる言語の翻訳文に変換し、変換した翻訳文をサーバ１に送信する。例えば、翻訳サーバ２は、日英翻訳システムを利用し、対象文を英語の翻訳文に変換する。

なお、本実施形態では対象文を英語に翻訳文に変換するものとして説明するが、翻訳文の言語（第２言語）は日本語（第１言語）と異なっていれば良く、例えばフランス語、中国語、韓国語等であっても良いことは勿論である。

サーバ１は、受信した翻訳文から、対象漢字を含む対象文の一部（例えば文節単位のテキスト）に対応する語句を抽出し、抽出した語句を翻訳サーバ２に送信する。翻訳サーバ２は、サーバ１から送信された語句を日本語の語句に変換する。すなわち、翻訳サーバ２は、英語の語句を日本語の語句に逆翻訳する。なお、翻訳サーバ２は、変換された日本語の語句を使い、概念辞書またはＷｏｒｄ２Ｖｅｃ等のベクトル化されたデータを検索し、日本語の語句に対する別の言い回し語句を収集しても良い。

翻訳サーバ２は、変換された日本語の語句をサーバ１に送信する。サーバ１は、翻訳サーバ２から送信された日本語の語句に基づき、複数の読み仮名の候補からいずれか一つを選択する。例えば、サーバ１は、複数の翻訳文それぞれに対応する変換後の日本語の語句において、最も多い漢字の読み仮名を選択しても良い。

サーバは、上記の処理を終了した後、選択した漢字の読み仮名に基づき、対象文に対応する音声を生成して出力する。音声の生成処理に関しては、例えば音声生成エンジンＡＩＴａｌｋ（登録商標）のＷｅｂＡＰＩ（Application Programming Interface）を利用し、対象文のテキストから音声を生成しても良い。また、例えばサーバ１は、ＴＴＳ（Text-to-Speech）エンジンを利用し、対象文のテキストから読み上げ音声が生成されても良い。

図２は、サーバ１の構成例を示すブロック図である。サーバ１は、制御部１１、記憶部１２、通信部１３、入力部１４、表示部１５、読取部１６及び大容量記憶部１７を含む。各構成はバスＢで接続されている。

制御部１１はＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro-Processing Unit）、ＧＰＵ（Graphics Processing Unit）等の演算処理装置を含み、記憶部１２に記憶された制御プログラム１Ｐを読み出して実行することにより、サーバ１に係る種々の情報処理、制御処理等を行う。なお、図２では制御部１１を単一のプロセッサであるものとして説明するが、マルチプロセッサであっても良い。

記憶部１２はＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）等のメモリ素子を含み、制御部１１が処理を実行するために必要な制御プログラム１Ｐ又はデータ等を記憶している。また、記憶部１２は、制御部１１が演算処理を実行するために必要なデータ等を一時的に記憶する。通信部１３は通信に関する処理を行うための通信モジュールであり、ネットワークＮを介して、翻訳サーバ２との間で情報の送受信を行う。

入力部１４は、マウス、キーボード、タッチパネル、ボタン等の入力デバイスであり、受け付けた操作情報を制御部１１へ出力する。表示部１５は、液晶ディスプレイ又は有機ＥＬ（Electro Luminescence）ディスプレイ等であり、制御部１１の指示に従い各種情報を表示する。

読取部１６は、ＣＤ（Compact Disc）－ＲＯＭ又はＤＶＤ（Digital Versatile Disc）－ＲＯＭを含む可搬型記憶媒体１ａを読み取る。制御部１１が読取部１６を介して、制御プログラム１Ｐを可搬型記憶媒体１ａより読み取り、大容量記憶部１７に記憶しても良い。また、ネットワークＮ等を介して他のコンピュータから制御部１１が制御プログラム１Ｐをダウンロードし、大容量記憶部１７に記憶しても良い。さらにまた、半導体メモリ１ｂから、制御部１１が制御プログラム１Ｐを読み込んでも良い。

大容量記憶部１７は、例えばハードディスク等を含む大容量の記憶装置である。大容量記憶部１７は、文章ＤＢ１７１及び学習済みモデル１７２を含む。文章ＤＢ１７１は、音声生成により読み上げられ、日本語で記述された対象文の情報を記憶している。学習済みモデルは、漢字に対し、品詞、属性、または読み仮名等を学習済みの学習済みモデルを記憶している。

なお、本実施形態において記憶部１２及び大容量記憶部１７は一体の記憶装置として構成されていても良い。また、大容量記憶部１７は複数の記憶装置により構成されていても良い。更にまた、大容量記憶部１７はサーバ１に接続された外部記憶装置であっても良い。

なお、本実施形態では、サーバ１は一台の情報処理装置であるものとして説明するが、複数台により分散して処理させても良く、または複数の仮想マシンにより構成されていても良い。

図３は、文章ＤＢ１７１のレコードレイアウトの一例を示す説明図である。文章ＤＢ１７１は、管理ＩＤ列、著者列、タイトル列及び文章列を含む。管理ＩＤ列は、各文章を識別するために、一意に特定される文章のＩＤを記憶している。著者列は、文章の著者名を記憶している。タイトル列は、文章のタイトルを記憶している。文章列は、文章の内容を記憶している。なお、本実施形態では、文章列に文章の内容が記憶されているものとするが、これに限るものではない。例えば、文章の内容が記載されているファイルのパスが記憶されても良い。

図４は、漢字ごとに複数の読み仮名の候補がある場合の読み仮名の選択処理を説明する説明図である。一の漢字に対して複数の読み仮名の候補がある場合において、日本語の文脈等を考慮しても読み仮名の誤選択を起こした場合、漢字の読み間違いが起こる恐れがある。そこで本実施形態では、日本語と異なる言語を利用し、日本語の読み仮名を正確に取り出すように処理する。具体的には以下で詳述する。

サーバ１の制御部１１は、大容量記憶部１７の文章ＤＢ１７１から、日本語で記述された対象文を取得する。なお、本実施形態では、「彼は人気のない場所で会った。」例として、読み仮名の選択処理を説明する。制御部１１は、取得した対象文に対して学習済みモデルを用い、対象文中の漢字ごとに品詞、属性及び読み仮名を付与する。例えば、「彼」の品詞、属性、読み仮名それぞれが、「名詞」、「人」、「かれ」である。「人気」の品詞、属性、読み仮名それぞれが、「名詞」、「なし」、「にんき/ひとけ/じんき/ひとげ」である。

制御部１１は、漢字ごとに読み仮名の数をカウントすることで、漢字の読み仮名に揺らぎがあるか否かを判定する。「彼」の読み仮名の数が１であるため、「彼」の読み仮名を明確に特定することができる。「人気」の読み仮名の数が４であるため、揺らぎがあるものと判定される。

制御部１１は、通信部１３を介して、対象文「彼は人気のない場所で会った。」を翻訳サーバ２に送信する。翻訳サーバ２は、サーバ１から対象文を受信し、受信した対象文を複数の英語の翻訳文に変換する。図４の例では、翻訳サーバ２は、「彼は人気のない場所で会った。」を「He called me without anyone noticing」、「He called me without anyone knowing」、「He called me in secret」という三通りの翻訳文に変換する。翻訳サーバ２は、変換した翻訳文をサーバ１に送信する。

サーバ１の制御部１１は、通信部１３を介して、翻訳サーバ２から複数の翻訳文を受信し、受信した各翻訳文から、対象漢字を含む対象文の一部に対応する英語の語句を抽出する。具体的には、制御部１１は、翻訳文「He called me without anyone noticing」、「He called me without anyone knowing」、「He called me in secret」からぞれぞれ、対象漢字を含む対象文の一部「人気のない」に対応する英語の語句「without anyone noticing」、「without anyone knowing」、「in secret」を抽出する。

サーバ１の制御部１１は、通信部１３を介して、抽出した複数の英語の語句を翻訳サーバ２に送信する。翻訳サーバ２は、サーバ１から複数の英語の語句を受信し、受信した英語の各語句を日本語に変換する。具体的には、翻訳サーバ２は、「without anyone noticing」、「without anyone knowing」、「in secret」をそれぞれ、「人目につかないところで」、「誰にも気付かれずに、人目につかないところで」、「人の目を盗んで、人目を忍んで」という日本語の語句に変換する。翻訳サーバ２は、変換した日本語の語句をサーバ１に送信する。

サーバ１の制御部１１は、通信部１３を介して、翻訳サーバ２から変換後の日本語の語句を受信する。制御部１１はさらに、変換後の英語の語句に類似する語句（例えば同義語、類義語等）のリクエストを翻訳サーバ２に送信する。翻訳サーバ２は、サーバ１からのリクエストに応じて、類似する英語の語句を、例えば英語表現を格納した所定のＤＢ（例えば英語辞書）から取得する。図４の例では、翻訳サーバ２は、「without anyone noticing」、「without anyone knowing」、「in secret」と類似する語句「hidden place」、「behind-the-scenes」、「a poor place」、「deserted place」を取得する。

翻訳サーバ２は、取得した各語句「hidden place」、「behind-the-scenes」、「a poor place」、「deserted place」を、それぞれ「知られていない場所」、「舞台裏で、陰で、ひそかに、水面下で」、「人気（ひとけ）のない場所」、「人気（ひとけ）のない場所」という日本語の語句に変換する。翻訳サーバ２は、変換した日本語の語句をサーバ１に送信する。

サーバ１の制御部１１は、通信部１３を介して、翻訳サーバ２から変換後の日本語の各語句を受信する。そして制御部１１は、受信した全ての日本語の語句における、当初推定した対象漢字の読み仮名の候補それぞれの出現頻度に応じて、最終的な読み仮名を選択する。例えば制御部１１は、受信した全ての日本語の語句それぞれから、上記の漢字と一致する漢字を識別して読み仮名を特定し、最も多い読み仮名を最終的な読み仮名として選択する。図４の例では、一致した「人気」に対して「ひとけ」の読み仮名の数が最も多いため、制御部１１は、「彼は人気のない場所で会った。」中の「人気」の読み仮名として、四つの読み仮名の候補から「ひとけ」を選択する。制御部１１は、選択した漢字の読み仮名に基づき、対象文に対応する音声を生成し、端末３に出力する。

図５及び図６は、音声生成処理の処理手順を示すフローチャートである。サーバ１の制御部１１は、大容量記憶部１７の文章ＤＢ１７１から、日本語で記述された対象文を取得する（ステップＳ１０１）。制御部１１は、取得した対象文に対して学習済みモデルを用い、対象文に品詞、属性及び読み仮名を付与する（ステップＳ１０２）。制御部１１は、付与した読み仮名から漢字ごとに読み仮名の数をカウントし（ステップＳ１０３）、漢字ごとに読み仮名の数が２以上であるか否かを判定する（ステップＳ１０４）。

制御部１１は、読み仮名の数が２以上でないと判定した場合（ステップＳ１０４でＮＯ）、ステップＳ１１４に移行する。制御部１１は、読み仮名の数が２以上であると判定した場合（ステップＳ１０４でＹＥＳ）、通信部１３を介して、取得した対象文を翻訳サーバ２に送信する（ステップＳ１０５）。

翻訳サーバ２は、サーバ１から送信された対象文を受信する（ステップＳ２０１）。翻訳サーバ２は、受信した対象文を英語の翻訳文に変換し（ステップＳ２０２）、変換した英語の翻訳文をサーバ１に送信する（ステップＳ２０３）。例えば翻訳サーバ２は、サーバ１から受信した対象文を、複数の翻訳文に変換してサーバ１に送信する。サーバ１の制御部１１は、通信部１３を介して、翻訳サーバ２から送信された英語の翻訳文を受信する（ステップＳ１０６）。制御部１１は、受信した英語の翻訳文から、対象漢字を含む対象文の一部に対応する英語の語句を抽出し（ステップＳ１０７）、抽出した英語の語句を通信部１３により翻訳サーバ２に送信する（ステップＳ１０８）。具体的には、制御部１１は、翻訳サーバ２から受信した複数の翻訳文それぞれから対応する英語の語句を抽出して、翻訳サーバ２に送信する。

翻訳サーバ２は、サーバ１から送信された英語の語句を受信し（ステップＳ２０４）、受信した英語の語句を日本語の語句に変換する（ステップＳ２０５）。具体的には、翻訳サーバ２は、サーバ１から送信された複数の英語の語句をそれぞれ日本語の語句に変換する。翻訳サーバ２は、変換した日本語の語句をサーバ１に送信する（ステップＳ２０６）。サーバ１の制御部１１は、通信部１３を介して、翻訳サーバ２から送信された日本語の語句を受信する（ステップＳ１０９）。さらに制御部１１は、ステップＳ１０８で送信した英語の語句に類似する語句のリクエストを翻訳サーバ２に送信する（ステップＳ１１０）。

翻訳サーバ２は、サーバ１から送信されたリクエストを受信し（ステップＳ２０７）、ステップＳ２０４で受信した英語の語句に類似する語句を取得（特定）する（ステップＳ２０８）。翻訳サーバ２は、取得した語句を日本語の語句に変換し（ステップＳ２０９）、変換後の日本語の語句をサーバ１に送信する（ステップＳ２１０）。

サーバ１の制御部１１は、通信部１３を介して、翻訳サーバ２から送信された日本語の語句を受信する（ステップＳ１１１）。制御部１１は、受信した全ての日本語の語句から、対象漢字と一致した漢字があるか否かを判定する（ステップＳ１１２）。制御部１１は、複数の読み仮名の候補がある対象漢字と一致した漢字があると判定した場合（ステップＳ１１２でＹＥＳ）、最も多い漢字の読み仮名を選択する（ステップＳ１１３）。

制御部１１は、対象漢字と一致した漢字がないと判定した場合（ステップＳ１１２でＮＯ）、複数の読み仮名の候補から事前に決められたルールに基づいて読み仮名を選択し、ステップＳ１１４に遷移して音声の生成処理を行う。例えば制御部１１は、学習済みモデル１７２を参照して使用頻度が最も高い読み仮名を選択しても良い。さらにまた、英語と異なる言語（例えば、中国語、フランス語等）に変換し、複数の読み仮名の候補がある対象漢字に対し、上述した処理の流れと同様に当該漢字の読み仮名が選択されても良い。

制御部１１は、選択した読み仮名に基づき、対象文に対応する音声を生成する（ステップＳ１１４）。制御部１１は、生成した音声を出力し（ステップＳ１１５）、一連の処理を終了する。

また、本実施形態では対象文の言語（第１言語）が日本語であるものとして説明したが、対象文は漢字を含む言語の文章であればよく、例えば中国語であってもよい。

また、本実施形態では音声変換を一例に説明を行ったが、例えば文書内の漢字に対する読み仮名の付与（所謂ルビの付与）に本システムを用いてもよい。すなわち、音声への変換は必須ではない。

本実施形態によると、日本語以外の言語に翻訳しながら漢字の読み仮名を選択することにより、読み間違いを低減することが可能となる。

また、本実施形態によると、適切な読みで日本語文章の音声再生を行うことができる。

また、本実施形態によると、対象文を複数の翻訳文に変換し、当該複数の翻訳文を日本語に変換して、出現頻度が高い対象漢字の読み仮名を選択することで、読み間違いをより適切に防ぐことができる。

また、本実施形態によると、対象文において漢字を含む部分を直訳した語句だけでなく、直訳した語句の同義語、類義語等の類似する語句まで広げて対象漢字の読み仮名を収集することで、読み間違いをより適切に防ぐことができる。

（実施形態２）
実施形態２は、対象文が著作物等である場合に、対象文の種別に応じて予め用意された読み仮名の専用ＤＢを組み合わせて用いることで、読み間違いを低減する形態に関する。なお、実施形態１と重複する内容については説明を省略する。

図７は、実施形態２のサーバ１の構成例を示すブロック図である。図２と重複する内容については同一の符号を付して説明を省略する。大容量記憶部１７は、読み仮名ＤＢ１７３を含む。読み仮名ＤＢ１７３は、対象文の種別に応じた漢字と読み仮名との対応付けを記憶している。

図８は、実施形態２の文章ＤＢ１７１のレコードレイアウトの一例を示す説明図である。図３と重複する内容については説明を省略する。本実施形態における文章ＤＢ１７１は、カテゴリ列を含む。カテゴリ列は、文章のカテゴリ（分野）を示す情報を記憶している。

図９は、読み仮名ＤＢ１７３のレコードレイアウトの一例を示す説明図である。読み仮名ＤＢ１７３は、読み仮名ＩＤ列、管理ＩＤ列、章列、段落列、漢字列及び読み仮名列を含む。読み仮名ＩＤ列は、各読み仮名を識別するために、一意に特定される読み仮名のＩＤを記憶している。管理ＩＤ列は、文章を管理する管理ＩＤを記憶している。章列は、対象漢字を所在している章の情報を記憶している。段落列は、対象漢字を所在している段落の情報を記憶している。漢字列は、文脈により読み仮名が付与される対象漢字を記憶している。読み仮名列は、対象文（著作物）に応じて用いられる対象漢字の特殊な読み仮名を記憶している。例えば図９では、読み仮名ＩＤ「００００００１」の対象漢字「宇宙」に対応付けて、読み仮名列に、常識的な「うちゅう」の代わりに「コスモ」が記憶されている。

上記の例のように、著作物によっては漢字を特殊な読み仮名で読ませる場合がある。また、例えば専門書で用いられる専門用語のように、一般の文書、すなわち学習済みモデル１７２の構築の際に学習対象とするような文章には出現しない語句（漢字）が対象文に含まれる場合もある。このような場合に備えて、本実施の形態では対象文の種別に応じて専用の読み仮名ＤＢ１７３を用意しておき、当該ＤＢを参照しながら読み仮名を選択する。

なお、上述した各ＤＢの記憶形態は一例であり、データ間の関係が維持されていれば、他の記憶形態であっても良い。

本実施形態では、対象文の種別に応じた漢字と読み仮名との対応付けが大容量記憶部１７の各ＤＢに記憶されている。制御部１１は、対象文に複数の読み仮名の候補を有する漢字がある場合に、まず対象文の種別を特定して、読み仮名ＤＢ１７３から対象漢字の読み仮名を検索する。対象文の種別は、例えば文書内における対象文の章、段落等の所在情報、あるいは当該対象文の著者、カテゴリ、書籍名等の情報である。制御部１１は、上記の各種情報を対象文から特定し、特定した各種情報に従って、読み仮名ＤＢ１７３から対象漢字の読み仮名を検索する。

制御部１１は、読み仮名ＤＢ１７３に対象漢字の読み仮名が記憶されていた場合、読み仮名ＤＢ１７３から対象漢字の読み仮名を取得して音声を生成し、端末３に出力する。制御部１１は、読み仮名ＤＢ１７３に対象漢字の読み仮名が記憶されていない場合、通信部１３を介して、対象文を翻訳サーバ２に送信する。翻訳サーバ２は、サーバ１から送信された対象文を受信し、他の言語を用いて読み仮名の選択処理を行う。なお、他の言語を用いて読み仮名の選択処理に関しては、実施形態１と同様であるため説明を省略する。

図１０は、専用辞書を用いて読み仮名を取得する際の処理手順を示すフローチャートである。なお、図５、図６と重複する内容については同一の符号を付して説明を省略する。サーバ１の制御部１１は、読み仮名の数が２以上であると判定した場合（ステップＳ１０４でＹＥＳ）、対象文の種別を特定する（ステップＳ１２１）。対象文の種別は、例えば文書内における対象文の章、段落等の所在情報、あるいは当該対象文の著者、カテゴリ、書籍名等の情報である。制御部１１は、特定した対象文の種別に基づき、大容量記憶部１７の読み仮名ＤＢ１７３から対象漢字の読み仮名を検索する（ステップＳ１２２）。

制御部１１は、対象漢字に対応する読み仮名が読み仮名ＤＢ１７３にあるか否かを判定する（ステップＳ１２３）。制御部１１は、対象漢字に対応する読み仮名があると判定した場合（ステップＳ１２３でＹＥＳ）、制御部１１は、当該対象漢字に対応する読み仮名を取得し（ステップＳ１２４）、ステップＳ１１４に遷移する。制御部１１は、対象漢字に対応する読み仮名がないと判定した場合（ステップＳ１２３でＮＯ）、ステップＳ１０５に遷移する。

今回開示された実施形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。

１情報処理装置（サーバ）
１１制御部
１２記憶部
１３通信部
１４入力部
１５表示部
１６読取部
１７大容量記憶部
１７１文章ＤＢ
１７２学習済みモデル
１７３読み仮名ＤＢ
１ａ可搬型記憶媒体
１ｂ半導体メモリ
１Ｐ制御プログラム
２翻訳情報処理装置（翻訳サーバ）
３端末

Claims

漢字を含む第１言語の対象文を取得する取得部と、
前記第１言語の文章の読みを学習済みの学習済みモデルを用いて、前記対象文の読みを推定する推定部と、
前記対象文に含まれる前記漢字に対して複数の読みが推定された場合、前記対象文を、前記第１言語と異なる第２言語に翻訳した翻訳文に変換する変換部と、
前記翻訳文から、前記漢字に対応する語句を抽出する抽出部と、
抽出した前記語句を前記第１言語の語句に変換する第２変換部と、
変換後の語句に基づき、前記複数の読みから前記漢字の読みを選択する選択部と
を備えることを特徴とする情報処理装置。
前記選択部が選択した前記漢字の読みに基づき、前記対象文に対応する音声を生成する生成部と、
生成した音声を出力する出力部と
を備える請求項１に記載の情報処理装置。
前記変換部は、前記対象文を複数の前記翻訳文に変換し、
前記抽出部は、前記複数の翻訳文それぞれから前記漢字に対応する語句を抽出し、
前記第２変換部は、前記複数の翻訳文それぞれから抽出した複数の前記語句を、前記第１言語の語句に変換し、
前記選択部は、変換後の前記第１言語の語句における前記複数の読みそれぞれの出現頻度に応じて、前記漢字の読みを選択する
ことを特徴とする請求項１又は２に記載の情報処理装置。
前記抽出部が抽出した語句と類似する語句を特定する特定部を備え、
前記第２変換部は、前記翻訳文から抽出した語句と、前記類似する語句とを前記第１言語の語句に変換する
ことを特徴とする請求項１～３のいずれか１項に記載の情報処理装置。
漢字を含む第１言語の対象文を取得し、
前記第１言語の文章の読みを学習済みの学習済みモデルを用いて、前記対象文の読みを推定し、
前記対象文に含まれる前記漢字に対して複数の読みが推定された場合、前記対象文を、前記第１言語と異なる第２言語に翻訳した翻訳文に変換し、
前記翻訳文から、前記漢字に対応する語句を抽出し、
抽出した前記語句を前記第１言語の語句に変換し、
変換後の語句に基づき、前記複数の読みから前記漢字の読みを選択する
処理をコンピュータに実行させる情報処理方法。
コンピュータに、
漢字を含む第１言語の対象文を取得し、
前記第１言語の文章の読みを学習済みの学習済みモデルを用いて、前記対象文の読みを推定し、
前記対象文に含まれる前記漢字に対して複数の読みが推定された場合、前記対象文を、前記第１言語と異なる第２言語に翻訳した翻訳文に変換し、
前記翻訳文から、前記漢字に対応する語句を抽出し、
抽出した前記語句を前記第１言語の語句に変換し、
変換後の語句に基づき、前記複数の読みから前記漢字の読みを選択する
処理を実行させるプログラム。