JP2014164403A - 読みがな割当装置およびプログラム - Google Patents
読みがな割当装置およびプログラム Download PDFInfo
- Publication number
- JP2014164403A JP2014164403A JP2013033200A JP2013033200A JP2014164403A JP 2014164403 A JP2014164403 A JP 2014164403A JP 2013033200 A JP2013033200 A JP 2013033200A JP 2013033200 A JP2013033200 A JP 2013033200A JP 2014164403 A JP2014164403 A JP 2014164403A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- reading
- uncorresponding
- likelihood
- target character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
【解決手段】対象文字列に含まれる文字と読みがなとの間の対応関係において未対応な箇所を、未対応解消部が解消する。未対応解消部は、(A)対象文字列内の未対応箇所と読みがなの文字列内の未対応箇所との位置が一致する場合には、当該未対応箇所同士を対応付け、(B)読みがなの文字列内の未対応箇所の位置に一致する対象文字列内の未対応箇所がない場合には、対象文字列内の文字との対応関係の尤度が低い側に読みがなを移し、(C)対象文字列内の未対応箇所の位置に一致する前記読みがなの文字列内の未対応箇所がない場合には、前後のいずれか一方であって、読みがなの文字列内の文字との対応関係の尤度が低い側に対応付いている読みがなを、当該未対応箇所に対応付ける。
【選択図】図1
Description
次に、本発明の一実施形態について、図面を参照しながら説明する。
図1は、本実施形態による読みがな割当装置の機能構成を示すブロック図である。同図において、符号1は読みがな割当装置である。図示するように、読みがな割当装置1は、対象文字列入力部31と、対象文字列分割部32と、文字・読みがな対応推定部33と、対訳コーパス格納部34と、機械学習部35と、学習結果格納部36と、文字・読みがな対応候補格納部37と、読みがな入力部38と、読みがな格納部39と、組合せ抽出部40と、未対応位置検出部41と、未対応解消部42と、出力部43とを含んで構成される。なお、これらの各部は、電子回路を用いて実現可能である。また、対訳コーパス格納部34や学習結果格納部36や文字・読みがな対応候補格納部37や読みがな格納部39は、半導体メモリや磁気ディスク装置等の情報記憶手段を用いて実現される。
対象文字列分割部32は、対象文字列入力部31が取得した対象文字列を、1つ1つの文字に分割する。
機械学習部35は、対訳コーパス格納部34に含まれているデータを読み出し、機械学習処理により、文字とその読みがなとの統計的関係を分析する。そして、機械学習部35は、文字と、その文字に対応する読みがなと、文字と読みがなとの対応ついての尤度を算出し、その算出結果を学習結果格納部36に書き込む。
学習結果格納部36は、文字と、その文字に対応する読みがなと、文字と読みがなとの対応ついての尤度を記憶する。ここでの尤度は、ある文字を前提としたときの、その文字に対応するある読みがなの出現確率値の対数である。言い換えれば、学習結果格納部36は、文字と、その文字の既知の読みがなと、その読み方がされる度合い(尤度)の情報を格納する。学習結果格納部36の詳細については、後で図面を参照しながら詳述する。
読みがな入力部38は、対象文字列入力部31によって取得された対象文字列(単語等)に対応する読みがなの文字列を取得する。読みがな入力部38が取得する読みがなは、対象文字列に対応する読みがなの全体であり、ひらがなやカタカナなどで表記され、分割されていない。例えば、対象文字列入力部31が取得した対象文字列が「糸魚川」であるとき、読みがな入力部38が取得する読みがなの文字列は「イトイガワ」である。なお、読みがな入力部38は、利用者からのキーボード入力を受け付けたり、記憶媒体から読み取ったりなどといった手段で読みがなを取得する。対象文字列入力部31によって取得された単語に基づいて、読みがな入力部38が、例えばMeCab(Yet Another Part-of-Speech and Morphological Analyzer)等の形態素解析器から読みがなを取得したり、インターネットを介して辞典情報を提供するウェブサーバーから読みがなを取得するようにしたりしても良い。そして、読みがな入力部38は、取得した読みがなを読みがな格納部39に書き込む。
読みがな格納部39は、読みがな入力部38が取得した読みがなの文字列を記憶する。
出力部43は、未対応解消部42によって未対応箇所が解消された後の、対象文字列と読みがなとの対応関係を出力する。
[パターンA]そして、対象文字列における第2の文字が未対応箇所であり、また読みがなにおける第3および第4の文字が未対応箇所である。これらの未対応箇所は、前述した「パターンA」に該当する。つまり、これらの未対応箇所の前は、つまり対象文字列における第1の文字と読みがなにおける第1および第2の文字とは、相互に対応付けられている。また、これらの未対応箇所の後は、つまり対象文字列における第3の文字と読みがなにおける第5の文字とは、相互に対応付けられている。
[パターンB]また、読みがなの第6の文字は、対象文字列中の文字と対応付いていない未対応箇所である。この未対応箇所は、前述した「パターンB」に該当する。
[パターンC]また、対象文字列の第5の文字は、読みがな中の文字と対応付いていない未対応箇所である。この未対応箇所は、前述した「パターンC」に該当する。
図7、図8、図9は、未対応解消部42による処理の手順を示すフローチャートである。図7と図8、および図7と図9は、それぞれ、フローチャートの結合子で接続されている。以下、このフローチャートに沿って説明する。
そして、ステップS14の後、このフローチャート全体の処理を終了する。
図10は、前述した「パターンA」の一例を示す。本例では、対象文字列が「糸魚川」(地名)であり、入力された読みがなが「イトイガワ」である。なお、対象文字列における「糸」という文字に対応し得る読みがな候補は「イト」でありその尤度は「−3.77」である。また、対象文字列における「魚」という文字に対応し得る読みがな候補は、「ウオ」(尤度:−4.62)と、「ギョ」(尤度:−4.89)と、「ナ」(尤度:-6.42)である。また、対象文字列における「川」という文字に対応し得る読みがな候補は、「カワ」(尤度:-1.65)と、「ガワ」(尤度:-3.56)と、「ワ」(尤度:−4.61)である。
次に、本発明の第2の実施形態について説明する。なお、前述の実施形態と同様の機能ブロックについては同じ符号を付すとともに説明を省略する。以下では、本実施形態に特有の事項を中心に説明する。
次に、本発明の第3の実施形態について説明する。なお、前述の実施形態と同様の機能ブロックについては同じ符号を付すとともに説明を省略する。以下では、本実施形態に特有の事項を中心に説明する。
第3の実施形態の第1の変形例として、図14に示した組合せ抽出装置4が、第2の実施形態で説明したペナルティー付与部51の機能を備えるようにしても良い。このとき、組合せ抽出部40は、第2の実施形態で説明した方法と同様に、ペナルティー付与部51によって付与されたペナルティーを適用して、即ち尤度からペナルティー値を減じながら、対象文字列と読みがなとの間の対応関係を決定する。
4 組合せ抽出装置
31 対象文字列入力部
32 対象文字列分割部
33 文字・読みがな対応推定部
34 対訳コーパス格納部
35 機械学習部
36 学習結果格納部
37 文字・読みがな対応候補格納部
38 読みがな入力部
39 読みがな格納部
40,50 組合せ抽出部
41 未対応位置検出部
42,52 未対応解消部
43 出力部
51 ペナルティー付与部
Claims (4)
- 読みがなを付与する対象である対象文字列と、前記対象文字列に対応する読みがなの文字列と、前記対象文字列に含まれる文字の少なくとも一部と前記読みがなの文字列に含まれる文字の少なくとも一部との間の対応関係の情報とを受け取り、前記対象文字列に含まれる文字についての既知の読みがなと当該文字に関する前記既知の読みがなごとの尤度の情報を参照することにより、前記対象文字列内で前記読みがなの文字列に対応付けられていない文字である未対応箇所と、前記読みがなの文字列内で前記対象文字列に対応付けられていない文字である未対応箇所とに関して、
(A)前記対象文字列内の未対応箇所と前記読みがなの文字列内の未対応箇所との位置が一致する場合には、当該未対応箇所同士を相互に対応付けることによって未対応箇所を解消し、
(B)前記読みがなの文字列内の未対応箇所の位置に一致する前記対象文字列内の未対応箇所がない場合には、前記尤度の情報に基づいて、当該読みがなの文字列内の未対応箇所の文字を、当該未対応箇所の前の部分または後の部分のいずれか一方であって、対象文字列内の文字との対応関係の尤度が低い側に移すように対応付けることによって未対応箇所を解消し、
(C)前記対象文字列内の未対応箇所の位置に一致する前記読みがなの文字列内の未対応箇所がない場合には、前記尤度の情報に基づいて、当該対象文字列内の未対応箇所の前の部分または後ろの部分のいずれか一方であって、読みがなの文字列内の文字との対応関係の尤度が低い側に対応付いている読みがなの文字の一部を、当該未対応箇所に対応付けることによって未対応箇所を解消する、
処理を行なう未対応解消部、
を具備することを特徴とする読みがな割当装置。 - 入力された前記対象文字列と入力された前記読みがなの文字列とを取得し、前記対象文字列に含まれる文字についての既知の読みがなと当該文字に関する前記既知の読みがなごとの尤度の情報を参照することにより、前記尤度に基づいて、前記対象文字列に含まれる文字の少なくとも一部と前記読みがなの文字列に含まれる文字の少なくとも一部との間の対応関係を決定し、決定した前記対応関係の情報を前記未対応解消部に渡す組合せ抽出部、
をさらに具備することを特徴とする請求項1に記載の読みがな割当装置。 - 前記対象文字列に含まれる文字と前記読みがなの文字列に含まれる文字との間の対応関係を決定する際の、決定済みの対応関係を有する箇所からの距離に応じて、前記距離が大きいほど大きな値となるペナルティー値を付与するペナルティー付与部、
をさらに具備し、
前記組合せ抽出部は、前記ペナルティー付与部によって付与された前記ペナルティー値を前記尤度から減じることによって、前記対象文字列に含まれる文字の少なくとも一部と前記読みがなの文字列に含まれる文字の少なくとも一部との間の対応関係を決定する、
ことを特徴とする請求項2に記載の読みがな割当装置。 - コンピューターに、
読みがなを付与する対象である対象文字列と、前記対象文字列に対応する読みがなの文字列と、前記対象文字列に含まれる文字の少なくとも一部と前記読みがなの文字列に含まれる文字の少なくとも一部との間の対応関係の情報とを受け取り、前記対象文字列に含まれる文字についての既知の読みがなと当該文字に関する前記既知の読みがなごとの尤度の情報を参照することにより、前記対象文字列内で前記読みがなの文字列に対応付けられていない文字である未対応箇所と、前記読みがなの文字列内で前記対象文字列に対応付けられていない文字である未対応箇所とに関して、
(A)前記対象文字列内の未対応箇所と前記読みがなの文字列内の未対応箇所との位置が一致する場合には、当該未対応箇所同士を相互に対応付けることによって未対応箇所を解消し、
(B)前記読みがなの文字列内の未対応箇所の位置に一致する前記対象文字列内の未対応箇所がない場合には、前記尤度の情報に基づいて、当該読みがなの文字列内の未対応箇所の文字を、当該未対応箇所の前の部分または後の部分のいずれか一方であって、対象文字列内の文字との対応関係の尤度が低い側に移すように対応付けることによって未対応箇所を解消し、
(C)前記対象文字列内の未対応箇所の位置に一致する前記読みがなの文字列内の未対応箇所がない場合には、前記尤度の情報に基づいて、当該対象文字列内の未対応箇所の前の部分または後ろの部分のいずれか一方であって、読みがなの文字列内の文字との対応関係の尤度が低い側に対応付いている読みがなの文字の一部を、当該未対応箇所に対応付けることによって未対応箇所を解消する、
未対応解消部の処理を実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013033200A JP6043651B2 (ja) | 2013-02-22 | 2013-02-22 | 読みがな割当装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013033200A JP6043651B2 (ja) | 2013-02-22 | 2013-02-22 | 読みがな割当装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014164403A true JP2014164403A (ja) | 2014-09-08 |
JP6043651B2 JP6043651B2 (ja) | 2016-12-14 |
Family
ID=51614975
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013033200A Expired - Fee Related JP6043651B2 (ja) | 2013-02-22 | 2013-02-22 | 読みがな割当装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6043651B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018067125A (ja) * | 2016-10-19 | 2018-04-26 | 日本放送協会 | 読み推定装置及びプログラム |
JP2019144840A (ja) * | 2018-02-20 | 2019-08-29 | シナノケンシ株式会社 | ルビ設定プログラム及びルビ設定装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11224250A (ja) * | 1998-02-05 | 1999-08-17 | Oki Electric Ind Co Ltd | 辞書装置 |
JPH11232268A (ja) * | 1998-02-09 | 1999-08-27 | Sumitomo Metal Ind Ltd | 文書処理装置、ルビ割り付け方法、及び記録媒体 |
JP2000353159A (ja) * | 1999-06-11 | 2000-12-19 | Nippon Telegr & Teleph Corp <Ntt> | 表記・読み対応付け装置、表記・読み対応辞書作成方法、テキスト読み振り装置、テキスト読み振り方法および記録媒体 |
JP2001142877A (ja) * | 1999-11-16 | 2001-05-25 | Nippon Telegr & Teleph Corp <Ntt> | アルファベット文字・日本語読み対応付け装置と方法およびアルファベット単語音訳装置と方法ならびにその処理プログラムを記録した記録媒体 |
JP2007156545A (ja) * | 2005-11-30 | 2007-06-21 | Nippon Telegr & Teleph Corp <Ntt> | 記号列変換方法、単語翻訳方法、その装置およびそのプログラム並びに記録媒体 |
-
2013
- 2013-02-22 JP JP2013033200A patent/JP6043651B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11224250A (ja) * | 1998-02-05 | 1999-08-17 | Oki Electric Ind Co Ltd | 辞書装置 |
JPH11232268A (ja) * | 1998-02-09 | 1999-08-27 | Sumitomo Metal Ind Ltd | 文書処理装置、ルビ割り付け方法、及び記録媒体 |
JP2000353159A (ja) * | 1999-06-11 | 2000-12-19 | Nippon Telegr & Teleph Corp <Ntt> | 表記・読み対応付け装置、表記・読み対応辞書作成方法、テキスト読み振り装置、テキスト読み振り方法および記録媒体 |
JP2001142877A (ja) * | 1999-11-16 | 2001-05-25 | Nippon Telegr & Teleph Corp <Ntt> | アルファベット文字・日本語読み対応付け装置と方法およびアルファベット単語音訳装置と方法ならびにその処理プログラムを記録した記録媒体 |
JP2007156545A (ja) * | 2005-11-30 | 2007-06-21 | Nippon Telegr & Teleph Corp <Ntt> | 記号列変換方法、単語翻訳方法、その装置およびそのプログラム並びに記録媒体 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018067125A (ja) * | 2016-10-19 | 2018-04-26 | 日本放送協会 | 読み推定装置及びプログラム |
JP2019144840A (ja) * | 2018-02-20 | 2019-08-29 | シナノケンシ株式会社 | ルビ設定プログラム及びルビ設定装置 |
Also Published As
Publication number | Publication date |
---|---|
JP6043651B2 (ja) | 2016-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6675463B2 (ja) | 自然言語の双方向確率的な書換えおよび選択 | |
Zhang et al. | Chinese segmentation with a word-based perceptron algorithm | |
Handel | What is Sino‐Tibetan? Snapshot of a field and a language family in flux | |
CN100429648C (zh) | 一种文本自动分块的方法、分块器和文本到语言合成系统 | |
CN113779972A (zh) | 语音识别纠错方法、系统、装置及存储介质 | |
CN106980620A (zh) | 一种对中文字串进行匹配的方法及装置 | |
JP2016177369A (ja) | 辞書更新装置、辞書更新方法、辞書更新プログラムおよび形態素解析装置 | |
JP6043651B2 (ja) | 読みがな割当装置およびプログラム | |
US20130202208A1 (en) | Information processing device and information processing method | |
JP5853595B2 (ja) | 形態素解析装置、方法、プログラム、音声合成装置、方法、プログラム | |
CN116129883A (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN110020429A (zh) | 语义识别方法及设备 | |
KR20120045906A (ko) | 코퍼스 오류 교정 장치 및 그 방법 | |
KR100512541B1 (ko) | 기계번역 장치 및 시스템, 방법 | |
Garay-Vitoria et al. | Modelling text prediction systems in low-and high-inflected languages | |
Jansche et al. | Named entity transcription with pair n-gram models | |
CN113204966A (zh) | 语料增广方法、装置、设备及存储介质 | |
CN113536776A (zh) | 混淆语句的生成方法、终端设备及计算机可读存储介质 | |
KR101982490B1 (ko) | 문자 데이터 변환에 기초한 키워드 검색 방법 및 그 장치 | |
Rizvee et al. | Arobust three-stage hybrid framework for english to bangla transliteration | |
JP2009176148A (ja) | 未知語判定システム、方法及びプログラム | |
CN111126082A (zh) | 一种翻译方法及装置 | |
Algarni | Light morphology and arabic information retrieval. | |
KR102618219B1 (ko) | 사전 학습된 언어 모델의 파라미터 및 사전 학습 단어장을미세 조정하는 방법 및 사전 학습된 언어 모델의 파라미터 및 사전 학습 단어장을 미세 조정하기 위한 전자 장치 | |
JP6325789B2 (ja) | 翻訳装置及び翻訳プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160104 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161011 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161018 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161114 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6043651 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |