JP7200474B2 - 変換補助装置、変換補助システム、変換補助方法及びコンピュータプログラム - Google Patents

変換補助装置、変換補助システム、変換補助方法及びコンピュータプログラム Download PDF

Info

Publication number
JP7200474B2
JP7200474B2 JP2017176525A JP2017176525A JP7200474B2 JP 7200474 B2 JP7200474 B2 JP 7200474B2 JP 2017176525 A JP2017176525 A JP 2017176525A JP 2017176525 A JP2017176525 A JP 2017176525A JP 7200474 B2 JP7200474 B2 JP 7200474B2
Authority
JP
Japan
Prior art keywords
characters
variant
character
kanji
conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017176525A
Other languages
English (en)
Other versions
JP2019053464A (ja
Inventor
博之 袴田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2017176525A priority Critical patent/JP7200474B2/ja
Publication of JP2019053464A publication Critical patent/JP2019053464A/ja
Application granted granted Critical
Publication of JP7200474B2 publication Critical patent/JP7200474B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Description

本発明は、日本語入力システムの固有名詞辞書に対して利用可能な変換補助装置に関する。
地方自治体は、戸籍及び住民記録の業務で、政令指定市レベルの人口を有する場合は、人名及び地名の固有名詞において数百から数千文字規模の大量の外字を利用している。外字はその性格上ある範囲でのみ利用可能な文字であるので、一般の日本語入力システム(IME:Input Method Editor)が備える変換用辞書では入力することができない。
このため、システム利用者が外字を入力するためには、外字を割り当てた文字コードを直接指定する、又は、外字を含む「漢字一覧表」から入力したい文字を選択する、という手法が一般的に行われていた。つまり、各地方自治体は、「国内の文字規格で標準的であったJIS X 0208が含む漢字約6000文字」とは別に、「数百から数千文字の外字」を作成及び登録することが必要だった。
一方、近年、独立行政法人情報処理機構が推進している「文字情報基盤事業」は、行政事務で必要なデータ交換及び保全の障碍となる外字の排除を目指している。具体的に、独立行政法人情報処理機構は、全国自治体から収集した文字集合を整理統合して、約6万文字の漢字(この集合を以下、MJ文字集合と呼称する)を国際規格に登録する作業を推進している。各地方自治体は、独自に構築してきた文字集合に代わってMJ文字集合を利用することにより、外字の作成及び登録作業が不要になる。そのため、各地方自治体は、MJ文字集合の導入を推進している。
しかし、MJ文字集合には、標準の字体と同じ意味及び発音を持つが、表記に差異がある異体字が多く存在しており、誤った文字を選択する可能性がある。また、日本語入力では、単語及び文節単位の入力による、仮名漢字変換が一般的であり、地方自治体の戸籍及び住民記録業務では、人名及び地名の読み仮名は予め判明している情報である。当該情報を用いずに、個々の文字の形状のみに依存した1文字単位の入力を必要とする手法は、入力効率が悪いといわざるを得ない。システム利用者は、日本語入力システム(IME)の固有名詞辞書に異体字を含む人名及び地名の固有名詞候補を予め登録しておくことで、漢字1文字単位の入力が必要ではなくなる。しかし、漢字6万字に対して異体字を含む人名及び地名の固有名詞候補を網羅的に登録する事は困難である。
先行技術文献1には、異体字を含む人名及び地名の固有名詞候補を生成する技術が記載されている。具体的に、文書データ処理装置は、入力かな文字列に基づいてかな漢字変換辞書を検索すると共に、かな漢字変換辞書によって変換候補として得られた基文字列に基づいて拡張候補情報テーブルを検索する。これにより、文書データ処理装置は、基文字(基底文字)と同義の拡張文字(異体字)を変換候補として得る。文書データ処理装置は、これによって得られた基文字と拡張文字あるいは拡張文字同士を組み合わせることによって、拡張候補文字列群(固有名詞候補)を生成する。生成された拡張候補文字列群は候補出力バッファに格納される。
特開2000―57131号公報
先行技術文献1に開示されている技術を、約6万文字のMJ文字集合に対して用いると、非常に膨大な固有名詞候補が生成される。そこで、生成された固有名詞候補のうち、システム利用者が登録したい固有名詞候補を探索し、固有名詞辞書に登録する手法が考えられる。しかし、先行技術文件1に開示されている技術は、生成された固有名詞候補を、どのように表示するかについては開示されていない。そのため、システム利用者が固有名詞辞書に登録したい固有名詞候補を容易に探索することが出来なかった。
本発明は上記の課題を鑑み、システム利用者が固有名詞辞書に登録したい固有名詞候補を容易に探索することができる変換補助装置を提供することを1つの目的とする。
本発明の変換補助装置は、漢字を元に異体字を検索する検索部と、前記検索部が検索を行う際に漢字と異体字との関係を示す値を算出する算出部と、前記値に基づいて前記異体字を含む変換候補の優先順位を決定する決定部とを備える。
本発明の変換補助方法は、漢字を元に異体字を検索し、検索を行う際に漢字と異体字との関係を示す値を算出し、前記値に基づいて前記異体字を含む変換候補の優先順位を決定する。
本発明のコンピュータプログラムは、漢字を元に異体字を検索し、検索を行う際に漢字と異体字との関係を示す値を算出し、前記値に基づいて前記異体字を含む変換候補の優先順位を決定する処理をコンピュータに実行させる。
本発明の変換補助装置によれば、システム利用者が固有名詞辞書に登録したい固有名詞候補を容易に探索することができる。
変換補助装置の構成を示す図である。 変換補助装置の動作を示すフローチャートである。 変換補助システムの構成を示す図である。 変換候補システムの動作を示す図である。 単語の具体例を示す図である。 分解した漢字の具体例を示す図である。 異体字インデックス表の具体例を示す図である。 異体字表の具体例を示す図である。 距離のイメージ図を示す図である。 MJ文字図形名配列に具体例を示す図である。 文字コード配列の具体例を示す図ある。 単語群の具体例を示す図である。 変換補助システムが除外を行う際の構成を示す図である。 変換補助システムが除外を行う際の動作を示す図である。 システム利用漢字リストの具体例を示す図である。 単語群の具体例を示す図である。 単語群の具体例を示す図である。 変換補助装置を実現するコンピュータの一例を示す図である。
<第1の実施形態>
本発明の第1の実施形態を、図面を用いて説明する。
図1は、第1の実施形態における、変換補助装置1の構成を示す図である。
変換補助装置1は、検索部11と算出部12と決定部13とを有する。
検索部11は、漢字を元に異体字を検索する。
異体字とは、標準の字体と同じ意味及び発音を持つが、表記に差異がある文字のことである。
算出部12は、検索部11が異体字の検索を行う際に、漢字と異体字との関係を示す値を算出する。漢字と異体字との関係を示す値については後述する。
決定部13は、算出部12が算出した値に基づいて、異体字を含む変換候補の優先順位を決定する。
次に、本発明の第1実施形態に係る変換補助装置1の動作について、図2を用いて説明する。
検索部11は、漢字を元に異体字を検索する(S1)
算出部12は、検索部11が異体字の検索を行う際に、漢字と異体字との関係を示す値を算出する(S2)。
決定部13は、算出部12が算出した値に基づいて、異体字を含む変換候補の優先順位を決定する(S3)。
決定部13が異体字を含む変換候補の優先順位を決定することにより、システム利用者は、固有名詞辞書に登録したい固有名詞候補を探索する際に当該優先順位を指標とする事が出来る。これにより、本実施形態における変換補助装置1は、システム利用者が固有名詞辞書に登録したい固有名詞候補を容易に探索することができる。
<第2の実施形態>
本発明の第2の実施形態を、図面を用いて説明する。
図3は、第2の実施形態における、変換補助システム20の構成である。
変換補助システム20は、入力装置100と、変換補助装置200と、異体字データベース(異体字DB)300と、出力装置400と、を有する。
入力装置100は、IMEが保持する固有名詞辞書から2語以上の漢字の組み合わせである単語を抽出し、変換補助装置200に入力する。
変換補助装置200は、入力装置100が入力した単語に基づいて、異体字DB300を参照することにより、異体字を含み、単語の集合である単語群を生成する。
異体字DB300は、異体字が格納されるデータベースのことである。異体字DB300は、異体字インデックス表310と、異体字表320と、を含む。異体字インデックス表310及び異体字表320の詳細な説明については、後述する。
出力装置400は、変換補助装置200が生成した単語群を、利用者に対して提示する。出力装置400は、利用者が選択した単語を含む単語群をIMEが保持する固有名詞辞書に出力する。
変換補助装置200は、分解部210と、検索部220と、算出部230と、単語群生成部240と、決定部250と、を有する。
分解部210は、2語以上の漢字の組み合わせである単語を、1文字単位の漢字に分解する。
検索部220は、分解部210が分解した1文字単位の漢字のそれぞれについて、異体字DB300を用いて異体字を検索する。
算出部230は、検索部220が異体字を検索する際の、漢字と異体字との関係を示す値を算出する。漢字と異体字との関係を示す値については後述する。
単語群生成部240は、漢字と異体字又は異体字同士を用いて2語以上の漢字の組み合わせである単語を生成し、当該単語の集合である単語を生成する。この際、単語群生成部240は、漢字と異体字又は異体字同士の、算出部230が算出した値を組み合わせた値を算出し、単語群に対応付ける。具体的に、単語群生成部240は、漢字と異体字又は異体字同士の、算出部230が算出した値の合計値を算出する。
決定部250は、単語群における単語の優先順位を、単語群生成部240が算出した合計値に基づいて決定する。
次に、本発明の第2実施形態に係る変換補助システム20の動作について、図4を用いて説明する。
入力装置100は、IMEが保持する固有名詞辞書から、2語以上の漢字の組み合わせである単語を抽出し、変換補助装置200に入力する(S10)。
分解部210は、入力装置100が入力した単語を、1文字単位の漢字に分解する(S11)。
検索部220は、分解部210が分解した1文字単位の漢字の異体字を、異体字DB300を参照することにより検索する(S12)。
算出部230は、検索部220が異体字を検索する際の、漢字と異体字との関係を示す値を算出する(S13)。
単語群生成部240は、漢字と異体字又は異体字同士を組み合わせて単語を生成し、当該単語の集合である漢字を生成する(S14)。
単語群生成部240は、2語以上の漢字における、漢字と異体字又は異体字同士の、算出部230が算出した値の合計を算出し、単語群に対応付ける(S15)。
決定部250は、単語群生成部240が算出した合計値に基づいて、単語群内の優先順位を決定する(S16)。
出力装置400は、変換補助装置200が生成した単語群を利用者に提示し、利用者が選択した単語を含む単語群をIMEが保持する固有名詞辞書に出力する(S17)。
次に、本発明の第2実施形態に係る変換補助システム20について、具体例を用いながら説明する。
本実施形態では、入力装置100が入力する単語の例として「渡辺」を用いるが、本願はこれに限られるものではない。
利用者は、IMEが一般的に具備する辞書追加機能を用いて、登録したい単語、読み仮名、及び品詞の情報を入力する。入力装置100は、利用者が入力した品詞の情報に「固有名詞」、「人名」、又は「地名」が指定されている場合に、上記の単語を変換補助装置200に入力する。本具体例では、単語として「渡辺」、読み仮名として「わたなべ」、品詞の情報として「人名」が利用者に指定されたものとする。
図5に、入力装置100が入力した単語の具体例500を示す。図5に記載されている文字コードの「6E21 8FBA」とは、「渡辺」という単語を、文字符号化方式のひとつであるUTF-16符号化表現(以後、UTF-16と呼ぶ)で表したものである。
分解部210は、単語である「渡辺」を、1文字単位の漢字である「渡」と「辺」とに分解する。
図6に、分解部210が分解した漢字の具体例510を示す。分解部210が分解した漢字の、それぞれの文字コードは、「渡」が「6E21」であり、「辺」が「8FBA」である。
検索部220は、「渡」及び「辺」のそれぞれについて、文字コードをキーにして異体字インデックス表310を検索し、それぞれの漢字について、MJ文字集合内で一意に定めた文字図形の名称であるMJ文字図形名を取得する。
異体字インデックス表310とは、漢字の文字コードとMJ文字図形名とを関連付ける表のことである。
図7に、異体字インデックス表310の具体例を示す。文字コードの列には漢字のUTF-16が記載されており、MJ文字図形名の列にはそれぞれの文字コードに対応したMJ文字図形名が記載されている。検索部220は、文字コードが「6E21」である「渡」の、MJ文字図形名が「JMJ015547」である事と、文字コードが「8FBA」である「辺」の、MJ文字図形名が「JMJ02575」である事とを得る。
次に、検索部220は、取得したMJ文字図形名をキーとして、異体字表320を検索し、当該MJ文字図形名の異体字のMJ文字図形名を取得する。検索部220は、異体字表320を用いて異体字を取得する際、取得した異体字のMJ文字図形名をキーとして、再帰的に、対応する異体字のMJ文字図形名を更に取得する。つまり、キーとして用いられる漢字の異体字を検索し、当該異体字をキーとして、当該異体字の異体字を更に検索する処理を行う。
異体字表320とは、漢字に対応する異体字が格納されている表のことである。異体字表320の具体例を図8に示す。
図8の1列目に記載されている「漢字」の列には、検索の際にキーとして用いられる漢字のMJ文字図形名及びMJ文字図形名が示す漢字が記載される。
図8の2列目に記載されている「正字」の列には、キーとして用いられる漢字の正字を示す漢字が記載される。正字とは、本願において、基準となる漢字のことである。なお、1列目の漢字が正字の場合、2列目は空欄になる。
図8の3列目以降に記載されている「異体字」の列には、キーとして用いられる漢字の異体字を示す漢字が記載される。
算出部230は、検索部220が、基準となる漢字である正字から、異体字を取得するまでに検索を行った回数を表す値を算出する。具体的に、算出部230は、検索部220が異体字を検索する際に、正字から何度検索して取得したのかを算出する(以後、算出部230が算出した値を距離と呼ぶ)。
図9に、算出部230が算出する距離のイメージ図520を記載する。算出部230は、「辺」を正字として、各異体字の距離を算出する。例えば、検索部220が、「辺」をキーとして検索し取得した異体字は「辺」からの距離が1であり、当該異体字を検索のキーとして取得した異体字は「辺」からの距離が2である。
単語群生成部240は、算出部230が算出した距離の情報を検索部220が検索したMJ文字図形名に対して追加し、MJ文字図形名配列530を作成する。
図10に、単語群生成部240が生成したMJ文字図形名配列530の具体例を示す。
単語群生成部240は、MJ文字図形名配列530内のMJ文字図形名をキーとして、異体字インデックス表310を検索し、対応する文字コードを取得し、当該配列内のMJ文字図形名を文字コードに置き換え、文字コード配列540を生成する。例えば、単語群生成部240は、「渡」のMJ文字図形名である「JMJ015547」を、対応する文字コードである「6E21」に置き換える。
図11に、単語群生成部240が生成した文字コード配列540を示す。
単語群生成部240は、文字コード配列540の各漢字を組み合わせて単語を生成し、当該単語の集合である単語群550を生成する。この際、単語群生成部240は、組み合わせた各漢字の距離の合計を算出し、単語群550に対応付ける。
図12に、単語群生成部240が生成した単語群550を示す。
決定部250は、単語群生成部240が生成した単語群550の優先順位を、距離の合計に基づいて決定する。
出力装置400は、決定部250が決定した異体字を含む単語群を利用者に提示し、利用者が選択した単語群をIMEが保持する固有名詞辞書に出力する。
決定部250が単語群550の優先順位を決定することにより、システム利用者は、固有名詞辞書に登録したい固有名詞候補を探索する際に、当該優先順位を指標とする事が出来る。
これにより、本実施形態における変換補助システム20は、システム利用者が固有名詞辞書に登録したい固有名詞候補を容易に探索することができる。
また、出力装置400が、優先順位が決定した単語群を固有名詞辞書に追加することによって、固有名詞辞書内で優先順位の情報を用いる事ができる。
なお、入力装置100が単語を変換補助装置200に入力する手法は、上記の手法に限られない。例えば、IMEが一般的に具備するユーザー辞書エクスポート機能を利用して出力したテキストファイル内の品詞情報に、「固有名詞」、「人名」、又は「地名」が指定されている単語を抽出して、変換補助装置200に入力する構成でも良い。入力装置100が単語を抽出し、変換補助装置200に入力する方法は、IMEの技術仕様に基づくものであればどのように設計しても構わない。また、本具体例で入力装置100は、品詞情報に、「固有名詞」、「人名」、又は「地名」が指定されている場合に単語を抽出したが、本願はこの場合に限られない。
なお、異体字DB300は、異体字が格納されるデータベースであればどのように作成しても構わないが、例えば、以下のように作成できる。IPA文字情報基盤の成果物のひとつである「MJ文字情報一覧表」には、法務省が定める戸籍統一文字との対応が定義されている。異体字DB300の作成者は、「MJ文字情報一覧表」に従って、対応する戸籍統一文字番号を取得する。異体字DB300の作成者は、法務省が公開している戸籍統一文字の、親字及び正字情報を用いて、取得した戸籍統一文字番号を検索し、当該番号に対応する親字・正字の戸籍統一番号を取得する。異体字DB300の作成者は、親字・正字の戸籍統一文字番号に対応するMJ文字図形名を、MJ文字種号一覧表から取得する。これにより、異体字DB300の作成者は、異体字DB300を作成することができる。
なお、決定部250は、優先順位を決定する際に、重み付けした数値の情報等のような情報も用いて決定しても良い。
なお、入力装置100及び出力装置400を、IMEの一部に組み込む構成にしても良い。これにより、仮名漢字変換の動作中に、表示される漢字候補一覧に対して異体字候補を追加することが可能である。即ち、入力装置100は、利用者がIMEを用いて漢字を入力する際、利用者が入力した読み仮名に基づいてIMEが標準で保持する固有名詞辞書から生成した変換候補を、利用者に提示する前に、変換補助装置200に入力する。変換補助装置200は単語群を生成し、出力装置400は、当該単語群を変換候補に追加する。IMEは、出力装置400が追加した変換候補を利用者に提示する。
<第3の実施形態>
本発明の第3の実施形態を、図13を用いて説明する。なお、第2の実施形態と重複する箇所については、説明を省略する。
本発明の変換補助装置200は、更に除外部260を有する。
除外部260は、変換候補から、利用可能な変換候補以外を除外する。具体的に、除外部260は、システム利用漢字リスト560を確認し、システム利用漢字リスト560に含まれていない漢字を含む単語を、単語群550から除外する。システム利用漢字リスト560については後述する。除外部260が単語群550から単語を除外する方法は、例えば、除外部260が単語群550から単語を削除する方法や、除外部260が単語にフラグを付与し、出力装置400は、当該フラグが付与された単語を出力しない方法等でも良い。しかし、上記方法は一例であり、除外部260が単語群550から単語を除外出来るのであれば、どのような方法を用いても良い。
システム利用漢字リスト560とは、変換補助装置200を適用する業務システムで利用可能な漢字の一覧である。変換補助装置200を適用する業務システムとは、例えば、各地方自治体で業務に用いられるシステム等が挙げられる。
次に、図14のフローチャートを用いて、除外部260の動作を説明する。
除外部260は、システム利用漢字リスト560を確認する(S21)。
除外部260は、システム利用漢字リスト560に含まれない漢字を含む単語が、単語群550に含まれている場合は(S22でYes)、当該単語を除外する(S23)。
次に、本発明の第3実施形態に係る変換補助システム20について、具体例を用いながら説明する。
図15に、システム利用漢字リスト560の具体例を示す。システム利用漢字リスト560は、変換補助装置200を適用する業務システムで利用できる漢字を把握出来るのならばどのように作成しても構わない。例えば、システム利用漢字リスト560の作成者は、既に各地方自治体で構築されている、住民記録システムで利用する文字コードの一覧表等を利用して、システム利用漢字リスト560を作成しても良い。
除外部260は、図12に記載する単語群550のうち、図15に記載するシステム利用漢字リスト560に含まれていない漢字を含む単語を単語群550から除外する。具体的に、除外部260は、システム利用漢字リスト560に含まれていない漢字である、「D86D DFEA」、「D861 DD59」、及び「8FB9」を含む単語を除外する。図16に、除外部260が、図12に記載する単語群550から上記の単語を除外した単語群550を示す。
なお、決定部250は、除外部260が除外を行った後の単語群550の優先順位を、距離合計に基づいて決定することができる。図17に、決定部が優先順位を決定した単語群550を示す。
本実施形態における変換補助システム20は、システム利用者が利用しない文字を単語群550から除外する。これにより、システム利用者は、固有名詞辞書に登録したい固有名詞候補をより容易に探索することができる。
なお、本実施形態では、除外部260及び決定部250が処理を行う順番は、任意に変更することが可能である。例えば、決定部250が単語群の優先順位を決定した後、除外部260は単語を除外することができる。
なお、本実施形態において、除外部260は、単語群550から除外する単語を選択する際にシステム利用漢字リストを用いているが、除外する単語を選択できれば、どのような構成にしても構わない。
なお、除外部260は、任意に定められた閾値を用いて、当該閾値を超える距離を持つ単語を単語群550から除外することが出来る。これにより、システム利用者は、固有名詞辞書に登録したいさらに固有名詞候補を容易に探索することができる。
なお、本願で用いた様々な具体例はあくまで一例であり、本願の効果を享受できるのならば、構成を自由に変更しても構わない。
本発明におけるプログラムは、コンピュータに図2に示す、S1からS3を実行させるプログラムである。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態における変換補助装置1、変換補助システム20、及び変換補助方法を実現することができる。この場合、コンピュータのCPU111は、検索部11、算出部12、及び決定部13として機能し、処理を行なう。
ここで、本実施の形態におけるプログラムを実行することによって、変換補助装置1を実現するコンピュータについて図18を用いて説明する。
図18は、本発明の実施の形態における変換補助装置1を実現するコンピュータの一例を示すブロック図である。
図18に示すように、コンピュータ110は、CPU111と、メインメモリ112と、記憶装置113と、入力インターフェイス114と、表示コントローラ115と、データリーダ/ライタ116と、通信インターフェイス117とを備える。これらの各部は、バス121を介して、互いにデータ通信可能に接続される。
CPU111は、記憶装置113に格納された、本実施の形態におけるプログラム(コード)をメインメモリ112に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ112は、典型的には、DRAM(Dynamic Random Access Memory)等の揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体120に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス117を介して接続されたインターネット上で流通するものであっても良い。
また、記憶装置113は、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス114は、CPU111と、入力機器118との間のデータ伝送を仲介する。入力機器118とは、例えば、キーボード及びマウス並びにタッチパネル等が挙げられる。表示コントローラ115は、ディスプレイ装置119と接続され、ディスプレイ装置119での表示を制御する。
データリーダ/ライタ116は、CPU111と記録媒体120との間のデータ伝送を仲介し、記録媒体120からのプログラムの読み出し、及びコンピュータ110における処理結果の記録媒体120への書き込みを実行する。通信インターフェイス117は、CPU111と他のコンピュータとの間のデータ伝送を仲介する。
また、記録媒体120の具体例としては、CF(Compact Flash(登録商標))及びSD(Secure Digital)等の汎用的な半導体記憶デバイス、又はフレキシブルディスク(Flexible Disk)等の磁気記憶媒体が挙げられる。更に、記録媒体120の具体例としては、CD-ROM(Compact Disk Read Only Memory)などの光学記憶媒体も挙げられる。
[付記]
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうる。以下、本発明における変換補助装置等の構成の概略を説明する。但し、本発明は、以下の構成に限定されない。
(付記1)
漢字を元に異体字を検索する検索部と、
前記検索部が検索を行う際に漢字と異体字との関係を示す値を算出する算出部と、
前記値に基づいて異体字を含む変換候補の優先順位を決定する決定部と、
を備える変換補助装置。
(付記2)
前記値とは、前記検索部が基準となる漢字から異体字を取得するまでに検索を行った回数を表す値である、
付記1に記載の変換補助装置。
(付記3)
前記変換候補から利用可能な変換候補以外を除外する除外部を更に備える、
付記1又は2に記載の変換補助装置。
(付記4)
異体字は、前記基準となる漢字の異体字である第1の異体字と、当該第1の異体字の異体字である第2の異体字とを含む、
付記2又は3のいずれか1項に記載の変換補助装置。
(付記5)
漢字が2語以上の場合に2語以上の漢字を1文字単位の漢字に分解する分解部と、
前記検索部の検索結果を用いて漢字と異体字又は異体字同士の組み合わせである単語を生成し、漢字と異体字又は異体字同士の前記値を組み合わせた値を算出し、当該単語の集合である単語郡を生成する単語群生成部とを更に備え、
前記検索部は前記分解部が分解した漢字のそれぞれについて異体字を検索し、
前記決定部は前記単語群生成部が算出した前記値を組み合わせた値に基づいて前記単語群における前記単語の優先順位を決定する、
付記1乃至4のいずれか1項に記載の変換補助装置。
(付記6)
付記1乃至5のいずれか1項に記載の変換補助装置を備える変換補助システム。
(付記7)
漢字を元に異体字を検索し、
検索を行う際に漢字と異体字との関係を示す値を算出し、
前記値に基づいて異体字を含む変換候補の優先順位を決定する
変換補助方法。
(付記8)
前記値とは、基準となる漢字から異体字を取得するまでに検索を行った回数を表す値である、
付記7に記載の変換補助方法。
(付記9)
前記変換候補から利用可能な変換候補以外を除外する、
付記7又は8に記載の変換補助方法。
(付記10)
異体字は、前記基準となる漢字の異体字である第1の異体字と、当該第1の異体字の異体字である第2の異体字とを含む、
付記8又は9のいずれか1項に記載の変換補助方法。
(付記11)
漢字が2語以上の場合に2語以上の漢字を1文字単位の漢字に分解し、
分解した漢字のそれぞれについて異体字を検索し、
検索の結果を用いて漢字と異体字又は異体字同士の組み合わせである単語を生成し、
漢字と異体字又は異体字同士の前記値を組み合わせた値を算出し、
当該単語の集合である単語郡を生成し
前記値を組み合わせた値に基づいて前記単語群における前記単語の優先順位を決定する、
付記7乃至10のいずれか1項に記載の変換補助方法。
(付記12)
漢字を元に異体字を検索し、
検索を行う際に漢字と異体字との関係を示す値を算出し、
前記値に基づいて異体字を含む変換候補の優先順位を決定する
処理をコンピュータに実行させるコンピュータプログラム。
(付記13)
前記値とは、基準となる漢字から異体字を取得するまでに検索を行った回数を表す値である、
付記12に記載のコンピュータプログラム。
(付記14)
前記変換候補から利用可能な変換候補以外を除外する
処理をコンピュータに実行させる付記12又は13に記載のコンピュータプログラム。
(付記15)
異体字は、前記基準となる漢字の異体字である第1の異体字と、当該第1の異体字の異体字である第2の異体字とを含む、
付記13又は14のいずれか1項に記載のコンピュータプログラム。
(付記16)
漢字が2語以上の場合に2語以上の漢字を1文字単位の漢字に分解し、
分解した漢字のそれぞれについて異体字を検索し、
検索の結果を用いて漢字と異体字又は異体字同士の組み合わせである単語を生成し、
漢字と異体字又は異体字同士の前記値を組み合わせた値を算出し、
当該単語の集合である単語郡を生成し
前記値を組み合わせた値に基づいて前記単語群における前記単語の優先順位を決定する
処理をコンピュータに実行させる付記7乃至10のいずれか1項に記載のコンピュータプログラム。
1 変換補助装置
11 検索部
12 算出部
13 決定部
20 変換補助システム
100 入力装置
110 コンピュータ
111 CPU
112 メインメモリ
113 記憶装置
114 入力インターフェイス
115 表示コントローラ
116 データリーダ/ライタ
117 通信インターフェイス
118 入力機器
119 ディスプレイ装置
120 記録媒体
200 変換補助装置
210 分解部
220 検索部
230 算出部
240 単語群生成部
250 決定部
260 除外部
300 異体字DB
310 異体字インデックス表
320 異体字表
400 出力装置
500 単語の具体例
510 分解した漢字の具体例
520 距離のイメージ図
530 MJ文字図形名配列
540 文字コード配列
550 単語群
560 システム利用漢字リスト

Claims (9)

  1. 2語以上の漢字を1文字単位の漢字に分解する分解部と、
    前記分解部が分解した漢字のそれぞれについて異体字を検索する検索部と、
    前記検索部が検索を行う際に漢字と異体字との関係を示す値を算出する算出部と、
    前記検索部の検索結果を用いて漢字と異体字又は異体字同士の組み合わせである単語を生成し、漢字と異体字又は異体字同士の前記値の合計値を算出し、当該単語の集合である単語群を生成する単語群生成部と、
    前記単語群生成部が算出した前記値の合計値に基づいて前記単語群における単語の変換候補の優先順位を決定する決定部と、
    を備える変換補助装置。
  2. 前記値とは、前記検索部が基準となる漢字から異体字を取得するまでに検索を行った回数を表す値である、
    請求項1に記載の変換補助装置。
  3. 前記変換候補から利用可能な変換候補以外を除外する除外部を更に備える、
    請求項1又は2に記載の変換補助装置。
  4. 異体字は、基準となる漢字の異体字である第1の異体字と、当該第1の異体字の異体字である第2の異体字とを含む、
    請求項2乃至3のいずれか1項に記載の変換補助装置。
  5. 請求項1乃至4のいずれか1項に記載の変換補助装置を備える変換補助システム。
  6. 変換補助装置が、
    2語以上の漢字を1文字単位の漢字に分解し、
    分解した漢字のそれぞれについて異体字を検索し、
    検索を行う際に漢字と異体字との関係を示す値を算出し、
    検索結果を用いて漢字と異体字又は異体字同士の組み合わせである単語を生成し、漢字と異体字又は異体字同士の前記値を組み合わせた値を算出し、当該単語の集合である単語群を生成し、
    算出した前記値の合計値に基づいて、前記単語群における単語の優先順位を決定する
    変換補助方法。
  7. 前記値とは、基準となる漢字から異体字を取得するまでに検索を行った回数を表す値である、
    請求項6に記載の変換補助方法。
  8. 2語以上の漢字を1文字単位の漢字に分解し、
    分解した漢字のそれぞれについて異体字を検索し、
    検索を行う際に漢字と異体字との関係を示す値を算出し、
    検索結果を用いて漢字と異体字又は異体字同士の組み合わせである単語を生成し、漢字と異体字又は異体字同士の前記値の合計値を算出し、当該単語の集合である単語群を生成し、
    算出した前記値の合計値に基づいて、前記単語群における単語の優先順位を決定する
    処理をコンピュータに実行させるコンピュータプログラム。
  9. 前記値とは、基準となる漢字から異体字を取得するまでに検索を行った回数を表す値である、
    請求項8に記載のコンピュータプログラム。
JP2017176525A 2017-09-14 2017-09-14 変換補助装置、変換補助システム、変換補助方法及びコンピュータプログラム Active JP7200474B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017176525A JP7200474B2 (ja) 2017-09-14 2017-09-14 変換補助装置、変換補助システム、変換補助方法及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017176525A JP7200474B2 (ja) 2017-09-14 2017-09-14 変換補助装置、変換補助システム、変換補助方法及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2019053464A JP2019053464A (ja) 2019-04-04
JP7200474B2 true JP7200474B2 (ja) 2023-01-10

Family

ID=66014934

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017176525A Active JP7200474B2 (ja) 2017-09-14 2017-09-14 変換補助装置、変換補助システム、変換補助方法及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP7200474B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004355574A (ja) 2003-05-30 2004-12-16 Konica Minolta Photo Imaging Inc 外字登録情報提供システム、外字情報登録装置及び情報処理方法
JP2009266110A (ja) 2008-04-28 2009-11-12 Internatl Business Mach Corp <Ibm> 情報処理装置、姓名識別方法、情報処理システム、およびプログラム
JP2016063359A (ja) 2014-09-17 2016-04-25 株式会社東芝 バスインタフェース回路

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004355574A (ja) 2003-05-30 2004-12-16 Konica Minolta Photo Imaging Inc 外字登録情報提供システム、外字情報登録装置及び情報処理方法
JP2009266110A (ja) 2008-04-28 2009-11-12 Internatl Business Mach Corp <Ibm> 情報処理装置、姓名識別方法、情報処理システム、およびプログラム
JP2016063359A (ja) 2014-09-17 2016-04-25 株式会社東芝 バスインタフェース回路

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李 泰憲 TaeHun LEE,複合語生成規則を用いたキーワード導出手法 A Method of Deriving Keywords Using Generation Rules of Compound Words,電子情報通信学会論文誌 (J84-D-II) 第5号 THE TRANSACTIONS OF THE INSTITUTE OF ELECTRONICS,INFORMATION AND COMMUNICATION ENGINEERS D-II,日本,社団法人電子情報通信学会 THE INSTITUTE OF ELECTRONICS,INFORMATION AND COMMUNICATION ENGINEERS,2001年05月01日,第J84-D-II巻,812~821頁
武藤 圭祐,漢字の関連性情報の可視化 -UCS 関連文字マップの製作について-,第22回公開シンポジウム「人文科学とデータベース」発表論文集 2016,日本,人文系データベース協議会,2017年02月18日,29~34頁,URL : https://www.jinbun-db.com/symposium/archives/22

Also Published As

Publication number Publication date
JP2019053464A (ja) 2019-04-04

Similar Documents

Publication Publication Date Title
JP5997217B2 (ja) 言語変換において複数の読み方の曖昧性を除去する方法
JP5362095B2 (ja) インプットメソッドエディタ
JP2006301446A (ja) 読み生成装置、読み生成方法及びコンピュータプログラム
JP3372532B2 (ja) 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体
JP2020135456A (ja) 生成装置、学習装置、生成方法及びプログラム
JP2005538428A (ja) 日本語仮想辞書
JP7103264B2 (ja) 生成装置、学習装置、生成方法及びプログラム
JP6476886B2 (ja) キーワード抽出システム、キーワード抽出方法、及び、コンピュータ・プログラム
JP2018067264A (ja) データ検索プログラム、データ検索装置およびデータ検索方法
JP7200474B2 (ja) 変換補助装置、変換補助システム、変換補助方法及びコンピュータプログラム
JP4845523B2 (ja) 文字処理装置、方法、プログラムおよび記録媒体
JP2007200252A (ja) 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体
JP5285491B2 (ja) 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、
JP4251000B2 (ja) かな漢字変換装置及びかな漢字変換方法、並びにかな漢字変換プログラム
JP2943791B2 (ja) 言語識別装置,言語識別方法および言語識別のプログラムを記録した記録媒体
JP2022002034A (ja) 抽出方法、抽出プログラム、及び、抽出装置
JP6805927B2 (ja) インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法
JP2000353159A (ja) 表記・読み対応付け装置、表記・読み対応辞書作成方法、テキスト読み振り装置、テキスト読み振り方法および記録媒体
JP3953772B2 (ja) 読みがな付与装置およびプログラム
JP6076285B2 (ja) 翻訳装置、翻訳方法及び翻訳プログラム
JPWO2014030258A1 (ja) 形態素解析装置、テキスト分析方法、及びそのプログラム
JP5445244B2 (ja) 音声合成装置、音声合成方法、及び音声合成プログラム
JP2007171275A (ja) 言語処理装置及び現後処理方法
JP2004118461A (ja) 言語モデルのトレーニング方法、かな漢字変換方法、言語モデルのトレーニング装置、かな漢字変換装置、コンピュータプログラムおよびコンピュータ読み取り可能な記録媒体
JP6162074B2 (ja) 検索キー作成方法及びその装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200817

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210628

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210706

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210903

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20211021

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220803

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221205

R151 Written notification of patent or utility model registration

Ref document number: 7200474

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151