JP6556411B2 - 読み推定装置 - Google Patents

読み推定装置 Download PDF

Info

Publication number
JP6556411B2
JP6556411B2 JP2019514330A JP2019514330A JP6556411B2 JP 6556411 B2 JP6556411 B2 JP 6556411B2 JP 2019514330 A JP2019514330 A JP 2019514330A JP 2019514330 A JP2019514330 A JP 2019514330A JP 6556411 B2 JP6556411 B2 JP 6556411B2
Authority
JP
Japan
Prior art keywords
unit
morpheme
information
symbol
reading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019514330A
Other languages
English (en)
Other versions
JPWO2018203388A1 (ja
Inventor
咲子 二本柳
咲子 二本柳
貴弘 大塚
貴弘 大塚
啓吾 川島
啓吾 川島
知宏 成田
知宏 成田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Application granted granted Critical
Publication of JP6556411B2 publication Critical patent/JP6556411B2/ja
Publication of JPWO2018203388A1 publication Critical patent/JPWO2018203388A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、入力されたテキストの読みを推定し、テキストに対応する読みを付与する読み推定装置に関するものである。
従来の読み推定装置として、例えば、入力テキスト内のスラッシュやハイフン等の記号に対して、前後の単語の品詞情報や意味情報を利用して読みを付与するものがあった(例えば特許文献1参照)。この装置では、例えば入力テキスト「5cm/秒」が与えられた場合、記号に対する音声情報を格納する単語辞書と、記号に対する音声情報を決定するための規則を格納する記号用音声情報規則を用いて、「/」を「ma i」に変換し、「ごせんちめーとるまいびょう」と読みを付与している。記号用音声情報規則には、記号と記号の前後の単語の表記に対応する品詞情報、意味情報、音声情報とが格納されており、入力テキストの形態素分割結果に対応する表記と、品詞情報と、意味情報と、音声情報とを参照することで、記号用音声情報規則の中から、入力テキストに含まれる記号に対して適用可能な規則を検索し適用する。上記例では、記号用音声情報規則における、意味情報が「数」である数詞(「5」)と、表記が「/」である形態素と、意味情報が「単位」である数詞(「cm」、「秒」)があった場合、「/」の読みを「ma i」にする、という規則が適用可能であるため、「/」の読みを単語辞書で予め「*(何も発音しないことを表す無発音記号)」から「ma i」にする変換処理を行っている。これにより、記号を一意に読み飛ばすのではなく、文脈に応じて適切に読み分けを行うことができる。
特開平06−186993号公報
しかしながら、上記特許文献1に記載された技術では、読み分ける記号の前後の単語の意味情報を表す「単位」が一意に定められており、「単位」の種類により記号の読み方が異なる場合に、適切に読み分けることができないという問題があった。
この発明は、かかる問題を解決するためになされたもので、複数の読み方がある記号を適切に読み分けることのできる読み推定装置を提供することを目的とする。
この発明に係る読み推定装置は、与えられたテキストを形態素に分割した第1の形態素列情報を生成する形態素解析部と、記号と、記号の使用規則を表すルールと、使用規則で示す単位の種類を表す単位表現と、記号の読み設定を表す設定値との関係を表す単位表現テーブルと、単位表現テーブルを参照し、第1の形態素列情報で、記号とルールと単位表現とで一致する形態素があった場合は、形態素の記号を、一致した単位表現の設定値に応じた読みとした第2の形態素列情報を出力する単位表現テーブル検索部と、第2の形態素列情報が出力された場合、テキストに対応する読み情報を第2の形態素列情報の読みとして解析し、解析結果である読み情報を出力する読み解析部とを備えたものである。
この発明に係る読み推定装置は、記号と、記号の使用規則を表すルールと、単位の種類を表す単位表現と、記号の読み設定を表す設定値との関係付けを表す単位表現テーブルを設け、この単位表現テーブルを参照して、記号とルールと単位表現とで一致する形態素があった場合は、一致した形態素の記号の設定値に応じた読みとした第2の形態素列情報を出力するようにしたものである。これにより、複数の読み方がある記号を適切に読み分けることができる。
この発明の実施の形態1の読み推定装置の構成図である。 この発明の実施の形態1の読み推定装置における単位表現テーブル例を示す説明図である。 この発明の実施の形態1の読み推定装置における単位表現テーブル例で値域を備えた場合の説明図である。 この発明の実施の形態1の読み推定装置のハードウェア構成図である。 この発明の実施の形態1の読み推定装置の動作を示すフローチャートである。 この発明の実施の形態1の読み推定装置における形態素列情報例を示す説明図である。 この発明の実施の形態2の読み推定装置を示す構成図である。 この発明の実施の形態2の読み推定装置におけるジャンル毎の設定値を有する単位表現テーブル例を示す説明図である。 この発明の実施の形態2の読み推定装置におけるスタイル毎の設定値を有する単位表現テーブル例を示す説明図である。 この発明の実施の形態2の読み推定装置の動作を示すフローチャートである。 この発明の実施の形態2の読み推定装置における形態素列情報例を示す説明図である。
以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
図1は、本実施の形態による読み推定装置を示す構成図である。
本実施の形態による読み推定装置は、図示のように、テキスト入力部1、形態素解析部2、言語辞書3、単位表現テーブル検索部4、単位表現テーブル5、読み解析部6を備える。
テキスト入力部1は、読みの推定対象となるテキスト情報を取得する処理部である。すなわち、テキスト入力部1は、読み推定の対象となる任意のテキスト情報を取得し、入力テキスト情報1aとして出力する。入力テキスト情報1aは、漢字やひらがな、アルファベット、数字、記号などを含む読み推定可能な任意のテキストの情報であれば良い。
形態素解析部2は、言語辞書3を参照して入力テキスト情報1aを形態素(言葉の意味を表す最小単位)に分割した形態素列情報を生成する処理部である。すなわち、形態素解析部2は、テキスト入力部1から出力された入力テキスト情報1aを取得し、言語辞書3を参照して形態素解析処理を行い、入力テキスト情報1aを形態素に分割した情報を少なくとも一つは含む形態素列情報を生成し、これを第1の形態素列情報2aとして出力する。第1の形態素列情報2aにおける各形態素は、表記と、その表記に対応する読みと、品詞情報とで表される。言語辞書3は、テキストに対応する読みと品詞などの情報とを含むデータベースである。
単位表現テーブル検索部4は、形態素解析部2から第1の形態素列情報2aが出力された場合、これを受けて単位表現テーブル5を参照し、単位表現テーブル5に格納された記号の読み設定値を検索して、第1の形態素列情報2aで、記号とルールと単位表現とで一致する形態素があった場合は、一致した記号の設定値に応じた読みとした第2の形態素列情報4aを出力する処理部である。
単位表現テーブル5は、任意の記号の表記と、その記号の使用規則を表すルールと、その記号とルールとに関連付けられた単位の種類を表す表記である単位表現と、各単位表現に対応した記号の読み設定を表す設定値との関係を示すテーブルである。
図2に単位表現テーブル5の一例を示す。図示の単位表現テーブル5は、記号501とルール502と単位表現503と設定値504の列からなるテーブルである。
記号501の列には、該当する記号の表記の情報が格納される。例えば、図示例では複数の読み方がある記号の表記「−」が格納されている。
ルール502の列には、記号情報502aと、記号情報502aに対応付けられた数詞情報502bと、記号情報502aと数詞情報502bに対応付けられた単位表現情報502cが格納されている。記号情報502aは、記号501の列に格納されている記号の識別情報である。数詞情報502bは、形態素の品詞情報のうち数量を表す品詞を示す情報である。また、単位表現情報502cは単位表現503の列に格納されている値のいずれかを示す情報である。
単位表現503の列は、単位の種類を示す値が格納され、図示例では「年」「月」「日」…といった値が行毎に格納されている。設定値504は、単位表現503の各行の値に対応した読み設定を示す値である。ここでは「1」はその記号の読み飛ばし設定であり、「0」はその記号の読み飛ばしを行わない設定としている。
例えば、入力テキスト情報を「−3月」とした場合、記号501の列の表記「−」と一致する表記を含み、また、単位表現503の列の単位表現「月」と一致する表記を含み、また、形態素解析処理により分割された形態素「3」が持つ品詞情報は「数詞」であるので、入力テキスト情報「−3月」はルール502の列のルール表記「[記号][数詞][単位表現]」に一致する。従って、この単位表現テーブルにおいて、一致するルールの単位表現「月」の行における、設定値の列に格納された値「1」が、入力テキスト情報「−3月」における記号「−」の読み設定値となる。
このように、単位表現テーブル5で対象となる記号は、例えば「−(マイナス)」や「〜(波形)」等の複数の読み方がある表記とする。また、記号の使用規則を表すルールは、例えば「[記号][数詞][単位表現]」のような、記号の形態素と、品詞を示す形態素と、単位表現の形態素の組合せと並びを示す情報である。なお、ルールは、単位表現テーブル5における記号を示す情報と、品詞情報の種類を表す情報と、単位表現テーブル5における単位表現を示す情報とが少なくとも含まれていればよく、その組み合わせと並びは任意に指定してよい。
単位表現は、例えば「人(にん)」、「年(ねん)」、「歳(さい)」等の単位の表記であり、単位表現を表す列の各行に値として格納される。また、記号の読み設定を表す値は、例えば、読み飛ばしを行う場合を「1」、読み飛ばしを行わない場合を「0」といったように2値で表現し、記号の読み設定を表す列の各行に値として格納される。記号の読み設定を表す値は、例えば該記号の読みを表す情報をそのまま記述してもよく、例えば記号「〜」に対する読み設定値として読み情報「から」や「kara」を設定することもできる。
また、例えば、図3に示す単位表現テーブル例のように、記号の読みの設定値504に対応する値域505をテーブル情報として記憶するようにしてもよい。例えば、図3の単位表現テーブル例においては、値域505の対応する行に値の範囲「[1−12]」や「[1−31]」を表す表記が格納されている。例えば、入力テキスト情報を「−13月」として、単位表現テーブル検索部4が単位表現テーブル5を検索する場合、この単位表現テーブル例において、ルール列の「[記号][数詞][単位表現]」に一致するので、一致するルールの単位表現「月」の行における、設定値の列に格納された値「1」が、入力テキスト情報「−13月」における記号「−」の読み設定値として取得できる。次に、値域505の対応する行に格納された値を参照し、「[1−12]」を取得する。ここで、入力テキスト情報における数詞を示す形態素が持つ表記を参照し、数詞の表す値が取得した値域の範囲内か判定する。数詞を表す形態素「13」が表す値は、値域「[1−12]」の範囲外であるため、取得した記号の読み設定値「1」を「0」とする。つまり、記号「−」の読み飛ばし設定を行わないように指定する。このように、値域505を設けることで、ルールに含まれる数詞における、読み設定値を適用する値の範囲を設定することができる。
読み解析部6は、第1の形態素列情報2aまたは第2の形態素列情報4aを参照し、読み推定装置からの出力となる、入力テキスト情報1aに対応する読み情報6aを生成する処理部である。読み情報6aは、入力テキスト情報1aの読み方を表す表音文字であればよく、例えば、入力テキスト「今日のニュース」に対応する読み情報は「きょーのにゅーす」となる。
次に、図1に示した読み推定装置のハードウェア構成について説明する。図4は読み推定装置のハードウェア構成図である。
図示の構成は、プロセッサ101、メモリ102、ストレージ103、入力インタフェース104、出力インタフェース105、バス106を備える。プロセッサ101は、テキスト入力部1、形態素解析部2、単位表現テーブル検索部4及び読み解析部6に対応したプログラムを実行し、これらの機能部を実現するためのCPUからなる演算装置である。メモリ102は、種々のプログラムをプロセッサ101がストレージ103から読み込んでプロセッサ101の作業領域を構成すると共に、プロセッサ101が処理するための各種のデータを記憶するためのメモリである。ストレージ103は、言語辞書3と単位表現テーブル5の格納部を構成すると共に、テキスト入力部1、形態素解析部2、単位表現テーブル検索部4及び読み解析部6に対応したプログラムを格納するための記憶部である。入力インタフェース104は、読みの推定対象となるテキストを入力するためのインタフェースであり、この入力インタフェース104を介してプロセッサ101がテキスト情報を読み込むことによりテキスト入力部1が実現されている。出力インタフェース105は読み情報6aを出力するためのインタフェースである。また、バス106は、プロセッサ101と、ストレージ103、入力インタフェース104、出力インタフェース105とを相互に通信接続するための通信路である。
なお、図4の例では、プロセッサ101によって、テキスト入力部1と形態素解析部2と単位表現テーブル検索部4と読み解析部6とを実現したが、これらの構成を電気回路として実現してもよい。
次に、実施の形態1の読み推定装置の動作について図5のフローチャートを用いて説明する。
テキスト入力部1で、読みの推定対象となるテキストを取得し、これを入力テキスト情報1aとして出力する(ステップST1)。これにより、形態素解析部2は、言語辞書3を参照して、入力テキスト情報1aのテキストを形態素単位に分割し、形態素列情報を第1の形態素列情報2aとして出力する(ステップST2)。例えば、図6に、第1の形態素列情報2aの一例として形態素列情報例201を示す。この形態素列情報例201は、入力テキスト「政策決定会合−28日から」を形態素分割した結果である。形態素列情報例201は、形態素「政策」「決定」「会合」「−」「28」「日」「から」によって構成され、各形態素は、入力テキストに対応する表記と、表記に対応する品詞情報(例えば、表記「政策」に対する品詞情報「名詞」)と、表記の読み方を表す読み情報(例えば、表記「政策」に対する読み情報「せーさく」)とを持つ。
次に単位表現テーブル検索部4は、第1の形態素列情報2aに対して、単位表現テーブル5を参照し、単位表現テーブル5に格納されている記号と一致する表記があるかを第1の形態素列情報2aの各形態素から検索する(ステップST3、ST4)。例えば、図2に示す単位表現テーブル例における記号501の列に格納された表記「−」を参照し、この表記と一致するものを、先に示した図6における形態素列情報例201の各形態素から検索する。
ステップST4において、単位表現テーブル検索部4は、第1の形態素列情報2aにおける各形態素の表記のいずれかが、単位表現テーブル5に格納された記号と一致した場合はステップST7の処理を行う。一方、第1の形態素列情報2aにおける各形態素の表記のいずれとも、単位表現テーブル5に格納された記号が一致しなかった場合、単位表現テーブル検索部4はステップST5の処理を行う。
ステップST5において、読み解析部6は、第1の形態素列情報2aを参照し、入力テキスト情報1aに対応する読み情報6aを生成する。読み情報6aは、第1の形態素列情報2aの各形態素が保持する表記に対応する読み方を表す読み情報から作成することができる。例えば、第1の形態素列情報2aの各形態素「今日」「の」「ニュース」が持つ読み情報「きょー」「の」「にゅーす」から、テキスト「今日のニュース」に対応する読み情報「きょーのにゅーす」を生成する。その後、読み解析部6は、生成した読み情報6aを読み推定装置の読み推定結果として出力する(ステップST6)。
単位表現テーブル検索部4は、ステップST4において、第1の形態素列情報2aにおける各形態素の表記のいずれかと、単位表現テーブル5に格納された記号が一致した場合、その記号の使用規則を表すルール502と一致する形態素の並びを第1の形態素列情報2aから検索する(ステップST7)。例えば、図2に示す単位表現テーブル例において、記号501の列に格納された表記「−」が、先に示した図6における形態素列情報例201の形態素「−」と一致した場合、単位表現テーブル検索部4は、単位表現テーブル例と、形態素列情報例201の形態素「−」の前後の形態素情報とを参照し、単位表現テーブル例におけるルール502の列に格納されたルールと一致する形態素列の並びを検索する。まず、形態素列情報例201の形態素「−」は、単位表現テーブル例における記号501の列の表記「−」と一致するため、ルール502の列に格納された「[記号]」は形態素「−」と一致する。また、形態素列情報例201の形態素「−」の後続の形態素「28」に対する品詞情報は「数詞」であるため、単位表現テーブル例におけるルール502の列に格納された「[数詞]」と一致する。また、形態素列情報例201の形態素「28」の後続の形態素「日」の表記は、単位表現テーブル例における単位表現503の列に格納された表記「日」と一致する。従って、形態素列情報例201における形態素「−」「28」「日」の並びが、単位表現テーブル例におけるルール502の「[記号][数詞][単位表現]」と一致する。
単位表現テーブル検索部4は、ステップST8において、第1の形態素列情報2aに、単位表現テーブル5に格納された記号の使用規則を表すルールと一致する形態素の並びが存在した場合、ステップST9に移行する。一方、第1の形態素列情報2aに、単位表現テーブル5に格納されたルールと一致する形態素の並びが存在しなかった場合はステップST5に移行する。
単位表現テーブル検索部4は、ステップST9において、単位表現テーブル5を参照し、第1の形態素列情報2aにおける記号の読み情報を設定する。例えば、先に示した図2における単位表現テーブル例において、ルール502の列のルール「[記号][数詞][単位表現]」と一致する形態素の並びが、先に示した図6における形態素列情報例201の形態素「−」「28」「日」であった場合、ルール502の[単位表現]に対応する形態素「日」の表記から、単位表現503の列の単位表現「日」の行を参照し、設定値504の列の「日」に対応する行に設定された値「1」を取得する。設定値「1」は、単位表現テーブル例において、記号を読み飛ばす設定を表しており、この設定値を用いて、形態素列情報例201における記号に対応する形態素「−」の読み情報を、「まいなす」から例えば「_(スペース)」のような読み飛ばしを表す読み情報を設定する。この際、記号に対応する形態素「−」の表記を合わせて設定してもよく、例えば表記「−」を句読点やスペースに置き換える処理を行ってもよい。
単位表現テーブル検索部4は、ステップST9において記号の読み情報を設定すると、設定後の形態素列情報を第2の形態素列情報4aとして出力する(ステップST10)。これにより、読み解析部6は、第2の形態素列情報4aを参照し、入力テキスト情報1aに対応する読み情報6aを生成する(ステップST11)。読み情報6aは、第2の形態素列情報4aの各形態素が保持する読み情報から作成することができる。例えば、先に示した図6の形態素列情報例201における形態素「−」の読み情報が設定された第2の形態素列情報4aを受け付けると、各形態素「政策」「決定」「会合」「−」「28」「日」「から」に対する読み情報「せーさく」「けってー」「かいごー」「_(スペース)」「にじゅーはち」「にち」「から」から、入力テキスト「政策決定会合−28日から」に対応する読み情報「せーさくけってーかいごー にじゅーはちにちから」を生成する。その後、読み解析部6は生成した読み情報6aを出力し(ステップST6)、読み推定装置における読み推定処理を終了する。
このように、実施の形態1の読み推定装置では、単位表現テーブル5の構成として、複数の読み方がある記号を表す表記と、この記号の使用規則を表すルールと、単位の種類を表す単位表現と、記号の読み設定を表す値を対応付けて記録するようにしたので、新たに記号の読み分けに使用する単位表現を追加する場合、単位表現を記録する列に単位を表す表記を追加するだけでよく、また、読み設定の処理を変更する場合は、単位表現に対応する列の記号に対する読み設定を表す値を変更するだけでよい。また、単位表現テーブル5は、記号毎に複数作成してもよく、例えば、記号「−(マイナス)」と記号「〜(波形)」の各単位表現テーブルで記号の使用規則を表すルールと、単位表現と、読み設定値を記録することができ、単位表現テーブルは容易に作成、拡張、交換及び流用が可能であるという効果がある。
また、単位表現テーブル5では、単位の種類を表す複数の単位表現と、記号の読み設定を表す値を対応付けて記録するようにしたので、例えば、入力テキスト情報「政策決定会合−28日から」と「明日の最高気温は2℃、最低気温−3℃」のように、適用される該記号の使用規則を表すルールは同一であり、一方で単位の種類により該記号の読み方が異なる場合においても、単位の種類毎に記号の読み設定を表す値を設定することで、記号を適切に読み分けることができるという効果がある。
以上のように、実施の形態1の読み推定装置によれば、与えられたテキストを形態素に分割した第1の形態素列情報を生成する形態素解析部と、記号と、記号の使用規則を表すルールと、使用規則で示す単位の種類を表す単位表現と、記号の読み設定を表す設定値との関係を表す単位表現テーブルと、単位表現テーブルを参照し、第1の形態素列情報で、記号とルールと単位表現とで一致する形態素があった場合は、形態素の記号を、一致した単位表現の設定値に応じた読みとした第2の形態素列情報を出力する単位表現テーブル検索部と、第2の形態素列情報が出力された場合、テキストに対応する読み情報を第2の形態素列情報の読みとして解析し、解析結果である読み情報を出力する読み解析部とを備えたので、複数の読み方がある記号を適切に読み分けることができる。
また、実施の形態2の読み推定装置によれば、単位表現テーブルにおける記号は、記号の表記を示す情報であり、ルールは、記号の形態素と、品詞を示す形態素と、単位表現の形態素の組合せと並びを示す情報であるようにしたので、記号に関するルールを適切に設定することができる。
実施の形態2.
実施の形態2は、実施の形態1の構成に加えて、推定対象となるテキストのジャンルとスタイルを考慮して読み情報を求めるようにしたものである。
図7は、実施の形態2の読み推定装置を示す構成図である。
実施の形態2の読み推定装置は、テキスト入力部1、形態素解析部2、言語辞書3、単位表現テーブル検索部40、単位表現テーブル50、読み解析部6、ジャンル及びスタイル検出部7を備える。ここで、ジャンル及びスタイル検出部7と単位表現テーブル検索部40と単位表現テーブル50以外の構成は実施の形態1と同様であるため、対応する部分に同一符号を付してその説明を省略する。
実施の形態2の単位表現テーブル50は、任意の記号の表記と、その記号の使用規則を表すルールと、その記号とルールとに関係付けられた単位の種類を表す表記である単位表現と、ジャンルまたはスタイル毎に記述されて各単位表現に対応した記号の読み設定を表す設定値との関係を示している。
図8に単位表現テーブル50の一例を示す。図示の単位表現テーブル例は、ジャンル毎に設定された場合の構成例であり、記号511、ルール512、単位表現513、設定値514の関係を示している。ここで、記号511、ルール512、単位表現513のそれぞれの列については、実施の形態1における図2及び図3の単位表現テーブル5の記号501、ルール502、単位表現503の列と同様である。
設定値514は、単位表現513の各行に対応したジャンル毎の設定値を示しており、図8では「社会」「スポーツ」「経済」のジャンルが設定されている。ここで、ジャンルとは、例えば「経済」や「スポーツ」といったような、テキスト内容の分類を表す情報である。設定値514における各ジャンルの列には、読み設定を表す値である2値の「1」「0」が設定されている。ここで「1」を設定した場合は記号の読み飛ばし設定を行い、「0」を設定した場合は記号の読み飛ばし設定を行わないよう設定される。例えば、図示例の単位表現テーブル50では、単位表現513が「安打」であった場合、設定値514として、ジャンルが「社会」では「1」、「スポーツ」では「0」、「経済」では「1」といったように、ジャンル毎の設定値が設定されている。
なお、これらの読み設定を表す設定値514は、例えば記号511の読みを表す情報をそのまま記述してもよく、例えば記号「〜」に対する設定値514として、読み情報「から」や「kara」を設定することもできる。
図8に示す単位表現テーブル例の場合、入力テキスト情報1aが「株価、前年比−34円08銭」であった場合、記号511の列の表記「−」と一致する表記を含み、また、単位表現513の列の単位表現「円」と一致する表記を含み、また、形態素解析処理により分割された形態素「34」が持つ品詞情報は「数詞」であるので、入力テキスト情報1aの「株価、前年比−34円08銭」はルール512の列のルール表記「[記号][数詞][単位表現]」に一致する。また、入力テキスト情報1aのジャンルが「経済」だった場合、設定値514における「経済」の列に一致するので、一致するルールの単位表現「円」の行における設定値の列に格納された値「0」が、「株価、前年比−34円08銭」における記号「−」の読み設定値となる。
図9はスタイル毎に設定された場合の単位表現テーブル50の構成例を示す説明図である。図示の単位表現テーブル例は、記号521、ルール522、単位表現523、設定値524の関係を示している。ここで、記号521、ルール522、単位表現523のそれぞれの列については図8の記号511、ルール512、単位表現513と同様である。
設定値524は、単位表現523の各行に対応したスタイル毎の設定値を示しており、図9では「見出し」「本文」のスタイルが設定されている。ここで、スタイルとは、例えば「見出し」や「本文」のような、入力テキスト情報の様式を表す情報である。読み設定を表す「1」「0」は、記号の読み飛ばし設定を行うか、記号の読み飛ばし設定を行わないかを示す値である。
図9に示す単位表現テーブル例の場合、入力テキスト情報1aを「現在、札幌の気温は−3℃です。」とした場合、単位表現テーブル例における記号521の表記「−」と一致する表記を含み、また、単位表現523の列の単位表現「℃」と一致する表記を含み、また、形態素解析処理により分割された形態素「3」が持つ品詞情報は「数詞」であるので、入力テキスト情報1aの「現在、札幌の気温は−3℃です。」はルール522の列のルール表記「[記号][数詞][単位表現]」に一致する。また、入力テキスト情報1aのスタイルが「本文」だった場合、設定値524における「本文」の列に一致する。従って、この単位表現テーブル例において、一致するルールの単位表現「℃」の行における、設定値の列に格納された値「0」が、「現在、札幌の気温は−3℃です。」における記号「−」の読み設定値となる。
このように、単位表現テーブル50における実施の形態1と実施の形態2との違いは、実施の形態1の単位表現テーブルの設定値をジャンルやスタイル毎に記述するようにしたことである。
次に、図7のジャンル及びスタイル検出部7について説明する。
ジャンル及びスタイル検出部7は、入力テキスト情報1aを参照し、入力テキストが表すジャンルやスタイルを表す情報を検出する処理部である。ここで、ジャンルとしては、例えば「経済」のような表記や、特定のジャンルと紐付けられたID等の情報を示す表記や数値で表される。スタイルとしては、例えば「見出し」や「title」のような表記や、特定のスタイルと紐付けられたID等の情報を示す表記や数値で表される。ジャンルは、予め登録したそのジャンル特有の表記が入力テキスト情報1aに含まれているか否かを判定することで取得してもよいし、そのジャンル特有の表記が含まれている頻度により推定してもよい。また、入力テキスト情報1aがHTMLで記述されており、テキストのヘッダ情報としてジャンルを表す情報が付加されている場合は、その情報を用いて取得してもよい。
スタイルは、体言止めの頻度を算出し、その頻度により判定してもよいし、また、入力テキスト情報1aがHTMLで記述されており、テキストのヘッダ情報やボディ情報として見出しや本文等の判定が可能な情報が付加されている場合、それらの情報からスタイルを判定し、スタイル情報を取得してもよい。また、引用記号等のスタイルを判定可能な情報が含まれていた場合、その情報からスタイルを検出してもよい。例えば、テキスト「東京、猛暑警報−36℃=今年度最高」のような複数の記号で区切られた文を記号を用いて分割し、記号で区切られた文が全て体言止めである場合、入力テキストのスタイルは見出しであると判定してもよい。
また、ジャンル及びスタイル検出部7は、テキスト情報からジャンルやスタイルを表す情報を検出、推定、判定、抽出できるような公知の技術を用いてもよい。
単位表現テーブル検索部40は、形態素解析部2から第1の形態素列情報2aが出力された場合、これを受けて、ジャンル及びスタイル検出部7から出力されたジャンル及びスタイル情報7aと単位表現テーブル50とを参照し、単位表現テーブル50に格納された記号の読み設定値を検索して、第1の形態素列情報2aで、記号とルールと単位表現とで一致する形態素があった場合は、一致した記号の設定値に応じた読みとした第2の形態素列情報40aを出力する処理部である。
なお、実施の形態2の読み推定装置におけるハードウェア構成は、図4に示した構成と同様である。ただし、実施の形態2におけるジャンル及びスタイル検出部7と単位表現テーブル検索部40は、それぞれの機能部に対応するプログラムをプロセッサ101が読み出して実行することにより実現される。また、単位表現テーブル50はストレージ103に格納される。
次に、実施の形態2の読み推定装置の動作について図10のフローチャートを用いて説明する。ここで、ステップST21及びST22の処理以外は、実施の形態1の図5に示した処理と同様であるため、対応する処理に同一のステップ番号を付してその説明を省略する。
先ず、テキスト入力部1が入力テキスト情報1aを出力し(ステップST1)、形態素解析部2が入力テキスト情報1aのテキストを形態素単位に分割して第1の形態素列情報2aを出力する(ステップST2)のは実施の形態1と同様である。
また、実施の形態2では、ジャンル及びスタイル検出部7が、入力テキスト情報1aを参照し、ジャンル情報とスタイル情報のうち少なくともいずれか一方を表す情報を検出し、これをジャンル及びスタイル情報7aとして出力する(ステップST21)。単位表現テーブル検索部40は、第1の形態素列情報2aに対して単位表現テーブル50を参照し、単位表現テーブル50に格納されている記号と一致する表記があるかを第1の形態素列情報2aの各形態素から検索する(ステップST3)。その結果、単位表現テーブル50に一致する記号があった場合は、ルールに一致する形態素の並びを検索し、一致するルールがあるかを判定する(ステップST4、ステップST7、ステップST8)。これらステップST3、ステップST4、ステップST7及びステップST8は、実施の形態1の処理と同様である。
単位表現テーブル検索部40は、ステップST8において、第1の形態素列情報2aに、単位表現テーブル50に格納された記号の使用規則を表すルールと一致する形態素の並びが存在した場合、ジャンル及びスタイル情報7aを参照し、単位表現テーブル50から一致するジャンルまたはスタイル毎の記号の読み情報を設定する(ステップST22)。
例えば、図8で示した単位表現テーブル例において、ルール512の列のルール「[記号][数詞][単位表現]」と一致する形態素の並びが、図11における形態素列情報例202の形態素「−」「8」「安打」であった場合、ルールの[単位表現]に対応する形態素「安打」の表記から、単位表現513の列の単位表現「安打」の行を参照する。また、受け付けたジャンル及びスタイル情報7aが、例えばスポーツを表すジャンル情報であった場合、設定値514のスポーツ列の「安打」に対応する行に設定された値「0」を取得する。設定値「0」は、単位表現テーブル例において、記号の読み飛ばし設定を行わないことを示しており、形態素列情報例202における記号に対応する形態素「−」の読み情報を「まいなす」のままとする。
その後の単位表現テーブル検索部40の動作(ステップST10)及び読み解析部6の動作(ステップST11、ステップST5、ステップST6)については実施の形態1と同様である。
なお、上記実施の形態2では、単位表現テーブル50として、ジャンルに対応した単位表現テーブルとスタイルに対応した単位表現テーブルを図8と図9に別々に示したが、ジャンルとスタイルの両方を備えた単位表現テーブル50であってもよい。
また、上記実施の形態2では、ジャンルとスタイルの両方を検出するジャンル及びスタイル検出部7としたが、ジャンルを検出するジャンル検出部とスタイルを検出するスタイル検出部のうち、いずれか一方の検出部を備えるようにしてもよい。この場合は、ジャンル検出部に対応した単位表現テーブルと、スタイル検出部に対応した単位表現テーブルとする。
以上説明したように、実施の形態2の読み推定装置によれば、与えられたテキスト内容の分類を表す情報を示すジャンルを検出するジャンル検出部を備えると共に、単位表現テーブルの設定値はジャンル毎に設定され、単位表現テーブル検索部は、第1の形態素列情報で、記号とルールと単位表現とで一致する形態素があった場合は、形態素の記号を、一致した単位表現でかつ検出されたジャンルの設定値に応じた読みとした第2の形態素列情報を出力するようにしたので、ジャンルによって記号の読み方が異なる場合においても、ジャンル毎に単位表現に対応する記号の読みの設定を指定することが可能となり、ジャンルによって読み方が異なる記号をより精度よく読み分けることができる。
また、実施の形態2の読み推定装置によれば、与えられたテキスト情報の様式を表す情報を示すスタイルを検出するスタイル検出部を備えると共に、単位表現テーブルの設定値はスタイル毎に設定され、単位表現テーブル検索部は、第1の形態素列情報で、記号とルールと単位表現とで一致する形態素があった場合は、形態素の記号を、一致した単位表現でかつ検出されたスタイルの設定値に応じた読みとした第2の形態素列情報を出力するようにしたので、スタイルによって記号の読み方が異なる場合においても、スタイル毎に単位表現に対応する記号の読みの設定を指定することが可能となり、スタイルによって読み方が異なる記号をより精度よく読み分けることができる。
また、実施の形態2の読み推定装置によれば、与えられたテキスト内容の分類を表す情報を示すジャンルと、テキスト情報の様式を表すスタイルとを検出するジャンル及びスタイル検出部を備えると共に、単位表現テーブルの設定値はジャンル及びスタイル毎に設定され、単位表現テーブル検索部は、第1の形態素列情報で、記号とルールと単位表現とで一致する形態素があった場合は、当該形態素の記号を、前記一致した単位表現でかつ前記検出されたジャンル及びスタイルの設定値に応じた読みとした第2の形態素列情報を出力するようにしたので、ジャンルまたはスタイルによって記号の読み方が異なる場合においても、ジャンルまたはスタイル毎に単位表現に対応する記号の読みの設定を指定することが可能となり、ジャンルまたはスタイルによって読み方が異なる記号をより精度よく読み分けることができる。
なお、上記実施の形態1及び実施の形態2は、日本語のテキストの例を説明したが、日本語に限らず、例えば英語のような外国語で使用してもよい。
なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
以上のように、この発明に係る読み推定装置は、入力されたテキストの読みを推定し、テキストに対応する読みを付与する構成に関するものであり、文字と記号からなるテキストを音声出力する音声処理装置などに用いるのに適している。
1 テキスト入力部、1a 入力テキスト情報、2 形態素解析部、2a 第1の形態素列情報、3 言語辞書、4,40 単位表現テーブル検索部、4a,40a 第2の形態素列情報、5,50 単位表現テーブル、6 読み解析部、6a 読み情報、7 ジャンル及びスタイル検出部、7a ジャンル及びスタイル情報、201,202 形態素列情報例、501,511,521 記号、502,512,522 ルール、503,513,523 単位表現、504,514,524 設定値、505値域。

Claims (5)

  1. 与えられたテキストを形態素に分割した第1の形態素列情報を生成する形態素解析部と、
    記号と、当該記号の使用規則を表すルールと、当該使用規則で示す単位の種類を表す単位表現と、前記記号の読み設定を表す設定値との関係を表す単位表現テーブルと、
    前記単位表現テーブルを参照し、前記第1の形態素列情報で、記号とルールと単位表現とで一致する形態素があった場合は、当該形態素の記号を、前記一致した単位表現の設定値に応じた読みとした第2の形態素列情報を出力する単位表現テーブル検索部と、
    前記第2の形態素列情報が出力された場合、前記テキストに対応する読み情報を当該第2の形態素列情報の読みとして解析し、解析結果である読み情報を出力する読み解析部とを備えたことを特徴とする読み推定装置。
  2. 前記単位表現テーブルにおける記号は、記号の表記を示す情報であり、前記ルールは、前記記号の形態素と、品詞を示す形態素と、前記単位表現の形態素の組合せと並びを示す情報であることを特徴とする請求項1記載の読み推定装置。
  3. 与えられたテキスト内容の分類を表す情報を示すジャンルを検出するジャンル検出部を備えると共に、前記単位表現テーブルの前記設定値はジャンル毎に設定され、
    前記単位表現テーブル検索部は、前記第1の形態素列情報で、記号とルールと単位表現とで一致する形態素があった場合は、当該形態素の記号を、前記一致した単位表現でかつ前記検出されたジャンルの設定値に応じた読みとした第2の形態素列情報を出力することを特徴とする請求項1記載の読み推定装置。
  4. 与えられたテキスト情報の様式を表す情報を示すスタイルを検出するスタイル検出部を備えると共に、前記単位表現テーブルの前記設定値はスタイル毎に設定され、
    前記単位表現テーブル検索部は、前記第1の形態素列情報で、記号とルールと単位表現とで一致する形態素があった場合は、当該形態素の記号を、前記一致した単位表現でかつ前記検出されたスタイルの設定値に応じた読みとした第2の形態素列情報を出力することを特徴とする請求項1記載の読み推定装置。
  5. 与えられたテキスト内容の分類を表す情報を示すジャンルと、テキスト情報の様式を表す情報を示すスタイルとを検出するジャンル及びスタイル検出部を備えると共に、前記単位表現テーブルの前記設定値はジャンル及びスタイル毎に設定され、
    前記単位表現テーブル検索部は、前記第1の形態素列情報で、記号とルールと単位表現とで一致する形態素があった場合は、当該形態素の記号を、前記一致した単位表現でかつ前記検出されたジャンル及びスタイルの設定値に応じた読みとした第2の形態素列情報を出力することを特徴とする請求項1記載の読み推定装置。
JP2019514330A 2017-05-02 2017-05-02 読み推定装置 Active JP6556411B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/017259 WO2018203388A1 (ja) 2017-05-02 2017-05-02 読み推定装置

Publications (2)

Publication Number Publication Date
JP6556411B2 true JP6556411B2 (ja) 2019-08-07
JPWO2018203388A1 JPWO2018203388A1 (ja) 2019-08-08

Family

ID=64016020

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019514330A Active JP6556411B2 (ja) 2017-05-02 2017-05-02 読み推定装置

Country Status (3)

Country Link
JP (1) JP6556411B2 (ja)
TW (1) TW201843603A (ja)
WO (1) WO2018203388A1 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06186993A (ja) * 1992-12-17 1994-07-08 Matsushita Electric Ind Co Ltd 音声合成装置
JPH10133853A (ja) * 1996-10-29 1998-05-22 Nippon Telegr & Teleph Corp <Ntt> 電子メール書換え方法及び装置
JP2002099294A (ja) * 2000-06-29 2002-04-05 Fujitsu Ltd 情報処理装置

Also Published As

Publication number Publication date
WO2018203388A1 (ja) 2018-11-08
TW201843603A (zh) 2018-12-16
JPWO2018203388A1 (ja) 2019-08-08

Similar Documents

Publication Publication Date Title
US20050114327A1 (en) Question-answering system and question-answering processing method
US20100070261A1 (en) Method and apparatus for detecting errors in machine translation using parallel corpus
US20140351228A1 (en) Dialog system, redundant message removal method and redundant message removal program
JP5646792B2 (ja) 単語分割装置、単語分割方法、及び単語分割プログラム
CN114036930A (zh) 文本纠错方法、装置、设备及计算机可读介质
JP6427466B2 (ja) 同義語ペア獲得装置、方法、及びプログラム
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
JP5097802B2 (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
US9996508B2 (en) Input assistance device, input assistance method and storage medium
JP4143085B2 (ja) 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP6556411B2 (ja) 読み推定装置
JP2008204399A (ja) 略語抽出方法、略語抽出装置およびプログラム
JP5795302B2 (ja) 形態素解析装置、方法、及びプログラム
JP6303508B2 (ja) 文書分析装置、文書分析システム、文書分析方法およびプログラム
KR101634681B1 (ko) 검사문서 내 인용구문 탐색 방법 및 프로그램
JP7216241B1 (ja) チャンキング実行システム、チャンキング実行方法、及びプログラム
JP2014126925A (ja) 情報検索装置および情報検索方法
JP2019061297A (ja) 情報処理装置、プログラム及び検索方法
Takahasi et al. Keyboard logs as natural annotations for word segmentation
JP2011113099A (ja) 未知語を含む文章を修正するための文章修正プログラム、方法及び文章解析サーバ
JP4941495B2 (ja) ユーザ辞書作成システム、方法、及び、プログラム
JP5230664B2 (ja) 類似語検索サーバ及び方法
JP5289032B2 (ja) 文書検索装置
JP4318223B2 (ja) 文書校正装置およびプログラム記憶媒体
JP3939264B2 (ja) 形態素解析装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190314

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20190314

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20190404

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190611

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190709

R150 Certificate of patent or registration of utility model

Ref document number: 6556411

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250