JP2022151023A - 読み方推定装置、読み方推定方法、読み方推定プログラム、および記録媒体 - Google Patents

読み方推定装置、読み方推定方法、読み方推定プログラム、および記録媒体 Download PDF

Info

Publication number
JP2022151023A
JP2022151023A JP2021053896A JP2021053896A JP2022151023A JP 2022151023 A JP2022151023 A JP 2022151023A JP 2021053896 A JP2021053896 A JP 2021053896A JP 2021053896 A JP2021053896 A JP 2021053896A JP 2022151023 A JP2022151023 A JP 2022151023A
Authority
JP
Japan
Prior art keywords
character
reading
character string
reading estimation
units
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021053896A
Other languages
English (en)
Inventor
義明 前原
Yoshiaki Maehara
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JAPAN PATENT INFORMATION ORGANIZATION
Original Assignee
JAPAN PATENT INFORMATION ORGANIZATION
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JAPAN PATENT INFORMATION ORGANIZATION filed Critical JAPAN PATENT INFORMATION ORGANIZATION
Priority to JP2021053896A priority Critical patent/JP2022151023A/ja
Publication of JP2022151023A publication Critical patent/JP2022151023A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】文字列の読み方に関する辞書的データベースを作ることなく、様々な文字列の読み方、特に商標の称呼を推定できる読み方推定装置を提供する。【解決手段】読み方推定装置100は、入力された文字列を文字単位に分割し、商標に関する整理標準化で学習されたトランスフォーマーが、文字単位に分割された前記文字列から、カタカナ文字又はひらがな文字を1文字ずつ逐次生成していくことによって、前記文字をカタカナ又はひらがなからなる読み方に変換する。【選択図】図2

Description

本発明は、読み方推定装置、読み方推定方法、読み方推定プログラム、および記録媒体に関する。特に、アルファベット、ひらがな、カタカナ、漢字、数字及びその他の文字種からなる文字列の読み方を推定する装置、方法、プログラム、および記録媒体に関する。
近年、インターネットが社会インフラとして定着したことから、日本語・外国語を問わずテキストベースの情報伝達が多くなっている。一方で、一般に文字列の音素情報はテキスト情報に付随せず伝達されるため、文字列は容易に伝達できるものの、当該文字列の読み方がわからないという事例が多く発生しており、文字列の読み方推定装置又は方法の需要が高まっている。
アルファベット、ひらがな、カタカナ、漢字、数字及びその他の文字種からなる文字列であって、読み方が困難な文字列の例としては、人名、地名、企業・団体名、漢字、外国語の固有名詞、及び、商標などが挙げられる。
ところで、商標の類似の範囲は、商標の外観、観念、称呼等によって需要者等に与える印象、記憶、連想等を総合して全体的に考察することによって決定される。そのため、従来は商標検索システムを構築するために、事業者等が文字商標から「表示用商標」及び「称呼」を作成してデータベースに格納していた。
本明細書において、「文字商標」とは、文字要素のみからなる商標に加え、図形と文字の結合商標における文字要素部分を含むものとして定義される。また、商標の「称呼」とは、当該商標に接する需要者によって認識される商標の読み方のことであると定義する。需要者が商標を読む場合、「株式会社」等の自他識別力のない一般名詞が読みから除外される場合等がある。この点において、商標の「称呼」は、通常の文字列の読み方と異なる。
文字商標から称呼を推定すること自体は、作業者にとってそれほどの作業負担ではない。しかし、データベースを構築するほどの大量の商標の称呼を作成することは、非常に大きな作業負担であり、従来からその自動化が望まれていた。
特許文献1には、形態素解析と読み方辞書を使った読み方推定装置が記載されている。
特開2004-206659号公報
しかし、特許文献1に記載の技術は、読み方を生成する際に、各形態素に対して予め登録されていた候補を辞書として登録しておく方法をとっていたため、未知語に対してのロバスト性が低く、さらに、実際の運用に際しても、辞書のチューニング・更新という手間が発生するという課題が生じていた。
そこで、本発明は、文字列の読み方に関する辞書的データベースを作ることなく、様々な文字列の読み方、特に商標の称呼を推定できる読み方推定装置および読み方推定方法等を提供することを目的とする。
一つの実施形態によれば、読み方推定装置が提供される。この読み方推定装置は、入力された前記文字列を文字単位に分割する文字列分割器と、ニューラルネットが、文字単位に分割された前記文字列から、カタカナ文字又はひらがな文字を1文字ずつ逐次生成していくことによって、前記文字単位に分割された前記文字列をカタカナ又はひらがなからなる読み方に変換する変換器と、有する。
本発明の目的及び利点は、請求項において特に指摘された要素および組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。
本明細書に開示された読み方推定装置および方法は、文字列の読み方に関する特別な辞書的データベースを作ることなく、様々な文字列の読み方、特に商標の称呼を推定できる読み方推定装置および方法を提供することができる。
本発明の実施形態における読み方推定装置を実施するためのコンピュータシステムのブロック図である。 本発明の実施形態における読み方推定装置の基本的な構成を示す図である。 本発明の実施形態の読み方推定装置における整理標準化データの前処理を示す図である。 本発明の実施形態の読み方推定装置における変換器102の動作を示す図である。 本発明の実施形態の読み方推定装置における意味・音調的チャンク分割器103での分割方法を示す図である。 本発明の実施形態の読み方推定装置における文字種分割器400の動作を示す図である。
本明細書で文字列とは、アルファベット(仏語アクサンや独語ウムラウト等のdiacritical markが付随したアルファベットを含む)、ひらがな、カタカナ、漢字(日本語で用いられる漢字の他、簡体字、繁体字表記の漢字も含む)、数字、表示用商標を構成する特殊文字、及び、その他の文字種、並びに、それらの組み合わせからなる文字列を意味するが、これらに限定されるものではない。その他の文字種としては、キリル文字等のマイナー言語で利用される文字種、表示用商標を構成する特殊文字等が例として挙げられる。また、当該文字列が示す対象は、人名、地名、企業・団体名、漢字、外国語の固有名詞、及び、商標などが挙げられるが、これらに限定されるものではない。
図1は、本開示の実施形態による態様を実施するためのコンピュータシステム300のブロック図である。本明細書で開示される様々な実施形態の機構及び装置は、任意の適切なコンピューティングシステムに適用されてもよい。コンピュータシステム300の主要コンポーネントは、1つ以上のプロセッサ302、メモリ304、端末インターフェース312、ストレージインターフェース314、I/O(入出力)デバイスインターフェース316、及びネットワークインターフェース318を含む。これらのコンポーネントは、メモリバス306、I/Oバス308、バスインターフェースユニット309、及びI/Oバスインターフェースユニット310を介して、相互的に接続されてもよい。
コンピュータシステム300は、プロセッサ302と総称される1つ又は複数の汎用プログラマブル中央処理装置(CPU)302A及び302Bを含んでもよい。ある実施形態では、コンピュータシステム300は複数のプロセッサを備えてもよく、また別の実施形態では、コンピュータシステム300は単一のCPUシステムであってもよい。各プロセッサ302は、メモリ304に格納された命令を実行し、オンボードキャッシュを含んでもよい。
ある実施形態では、メモリ304は、データ及びプログラムを記憶するためのランダムアクセス半導体メモリ、記憶装置、又は記憶媒体(揮発性又は不揮発性のいずれか)を含んでもよい。ある実施形態では、メモリ304は、コンピュータシステム300の仮想メモリ全体を表しており、ネットワークを介してコンピュータシステム300に接続された他のコンピュータシステムの仮想メモリを含んでもよい。メモリ304は、概念的には単一のものとみなされてもよいが、他の実施形態では、このメモリ304は、キャッシュおよび他のメモリデバイスの階層など、より複雑な構成となる場合がある。例えば、メモリは複数のレベルのキャッシュとして存在し、これらのキャッシュは機能毎に分割されてもよい。その結果、1つのキャッシュは命令を保持し、他のキャッシュはプロセッサによって使用される非命令データを保持する構成であってもよい。メモリは、いわゆるNUMA(Non-Uniform Memory Access)コンピュータアーキテクチャのように、分散され、種々の異なるCPUに関連付けられてもよい。
メモリ304は、本明細書で説明する機能を実施するプログラム、モジュール、及びデータ構造のすべて又は一部を格納してもよい。例えば、メモリ304は、読み方推定アプリケーション350を格納していてもよい。ある実施形態では、読み方推定アプリケーション350は、後述する機能をプロセッサ302上で実行する命令又は記述を含んでもよく、あるいは別の命令又は記述によって解釈される命令又は記述を含んでもよい。ある実施形態では、読み方推定アプリケーション350は、プロセッサベースのシステムの代わりに、またはプロセッサベースのシステムに加えて、半導体デバイス、チップ、論理ゲート、回路、回路カード、および/または他の物理ハードウェアデバイスを介してハードウェアで実施されてもよい。ある実施形態では、読み方推定アプリケーション350は、命令又は記述以外のデータを含んでもよい。ある実施形態では、カメラ、センサ、または他のデータ入力デバイス(図示せず)が、バスインターフェースユニット309、プロセッサ302、またはコンピュータシステム300の他のハードウェアと直接通信するように提供されてもよい。このような構成では、プロセッサ302がメモリ304及び潜在因子識別アプリケーションにアクセスする必要性が低減する可能性がある。
コンピュータシステム300は、プロセッサ302、メモリ304、表示システム324、及びI/Oバスインターフェースユニット310間の通信を行うバスインターフェースユニット309を含んでもよい。I/Oバスインターフェースユニット310は、様々なI/Oユニットとの間でデータを転送するためのI/Oバス308と連結していてもよい。I/Oバスインターフェースユニット310は、I/Oバス308を介して、I/Oプロセッサ(IOP)又はI/Oアダプタ(IOA)としても知られる複数のI/Oインターフェースユニット312,314,316、及び318と通信してもよい。表示システム324は、表示コントローラ、表示メモリ、又はその両方を含んでもよい。表示コントローラは、ビデオ、オーディオ、又はその両方のデータを表示装置326に提供することができる。また、コンピュータシステム300は、データを収集し、プロセッサ302に当該データを提供するように構成された1つまたは複数のセンサ等のデバイスを含んでもよい。表示メモリは、ビデオデータをバッファするための専用メモリであってもよい。表示システム324は、単独のディスプレイ画面、テレビ、タブレット、又は携帯型デバイスなどの表示装置326に接続されてもよい。ある実施形態では、表示装置326は、オーディオをレンダリングするためスピーカを含んでもよい。あるいは、オーディオをレンダリングするためのスピーカは、I/Oインターフェースユニットと接続されてもよい。他の実施形態では、表示システム324が提供する機能は、プロセッサ302を含む集積回路によって実現されてもよい。同様に、バスインターフェースユニット309が提供する機能は、プロセッサ302を含む集積回路によって実現されてもよい。
I/Oインターフェースユニットは、様々なストレージ又はI/Oデバイスと通信する機能を備える。例えば、端末インターフェースユニット312は、ビデオ表示装置、スピーカテレビ等のユーザ出力デバイスや、キーボード、マウス、キーパッド、タッチパッド、トラックボール、ボタン、ライトペン、又は他のポインティングデバイス等のユーザ入力デバイスのようなユーザI/Oデバイス320の取り付けが可能である。ユーザは、ユーザインターフェースを使用して、ユーザ入力デバイスを操作することで、ユーザI/Oデバイス320及びコンピュータシステム300に対して入力データや指示を入力し、コンピュータシステム300からの出力データを受け取ってもよい。ユーザインターフェースは例えば、ユーザI/Oデバイス320を介して、表示装置に表示されたり、スピーカによって再生されたり、プリンタを介して印刷されたりしてもよい。
ストレージインターフェース314は、1つ又は複数のディスクドライブや直接アクセスストレージ装置322(通常は磁気ディスクドライブストレージ装置であるが、単一のディスクドライブとして見えるように構成されたディスクドライブのアレイ又は他のストレージ装置であってもよい)の取り付けが可能である。ある実施形態では、ストレージ装置322は、任意の二次記憶装置として実装されてもよい。メモリ304の内容は、記憶装置322に記憶され、必要に応じて記憶装置322から読み出されてもよい。I/Oデバイスインターフェース316は、プリンタ、ファックスマシン等の他のI/Oデバイスに対するインターフェースを提供してもよい。ネットワークインターフェース318は、コンピュータシステム300と他のデバイスが相互的に通信できるように、通信経路を提供してもよい。この通信経路は、例えば、ネットワーク330であってもよい。
図1に示されるコンピュータシステム300は、プロセッサ302、メモリ304、バスインタフェース309、表示システム324、及びI/Oバスインターフェースユニット310の間の直接通信経路を提供するバス構造を備えているが、他の実施形態では、コンピュータシステム300は、階層構成、スター構成、又はウェブ構成のポイントツーポイントリンク、複数の階層バス、平行又は冗長の通信経路を含んでもよい。さらに、I/Oバスインターフェースユニット310及びI/Oバス308が単一のユニットとして示されているが、実際には、コンピュータシステム300は複数のI/Oバスインターフェースユニット310又は複数のI/Oバス308を備えてもよい。また、I/Oバス308を様々なI/Oデバイスに繋がる各種通信経路から分離するための複数のI/Oインターフェースユニットが示されているが、他の実施形態では、I/Oデバイスの一部または全部が、1つのシステムI/Oバスに直接接続されてもよい。
ある実施形態では、コンピュータシステム300は、マルチユーザメインフレームコンピュータシステム、シングルユーザシステム、又はサーバコンピュータ等の、直接的ユーザインターフェースを有しない、他のコンピュータシステム(クライアント)からの要求を受信するデバイスであってもよい。他の実施形態では、コンピュータシステム300は、デスクトップコンピュータ、携帯型コンピュータ、ノートパソコン、タブレットコンピュータ、ポケットコンピュータ、電話、スマートフォン、又は任意の他の適切な電子機器であってもよい。
次に、図2を参照しながら、文字商標の読み方推定装置100の基本的な構成について説明する。本実施例の読み方推定装置100は、文字列分割器101、変換器102、および意味・音調的チャンク分割器103を有する。
文字列分割器101は入力された文字列を文字単位に分割する。入力が想定される文字列は、アルファベット(仏語アクサンや独語ウムラウト等のdiacritical markが付随したアルファベットを含む)、ひらがな、カタカナ、漢字(日本語で用いられる漢字の他、簡体字、繁体字表記の漢字も含む)、数字、その他の文字種、並びに、それらの組み合わせからなるものである。
変換器102は、整理標準化データに基づき学習器200により学習された学習モデルを含む。変換器102は、文字単位で分割された商標の文字列から学習済みモデルを用いて、当該文字列の読み方を生成する。本実施例では、注意機構を備えるエンコーダーとデコーダーから構成されるトランスフォーマーと呼ばれるニューラル機械翻訳モデルを利用するため、本実施例における、変換用モデルの学習及び当該モデルによる称呼の生成は、ニューラル機械翻訳が翻訳文を生成するプロセスと同様のプロセスで行われる。
次に、図3を参照しながら、変換器102の学習データの前処理及び学習方法について説明する。
原文と訳文のセットに基づくニューラル機械翻訳モデルの学習と同様に、本実施例における学習に必要なものは、文字列化された商標と称呼とのセットを大量に有するコーパスである。このコーパスは、図2に示すように、整理標準化データから生成することができる。
整理標準化データには、図3に示すように、文字商標について、「表示用商標」と「称呼」がそれぞれ格納されている。表示用商標とは、文字を含む商標に含まれる文字列を、その態様を表す特殊記号等と組み合わせて文字起こししたものである。
整理標準化データの前処理について、図3に基づいて説明する。まず、ステップ1にて、当該整理標準化データから、表示用商標と称呼のペアを抽出する。表示用商標については、商標の態様を表す特殊記号(§、∞、▲、▼、¢、\)等の称呼に起こされるべきではない文字列が頻出してくるが、後述の通り、削除を行わなくても問題はない。
整理標準化データにおいては、1つの表示用商標について複数の称呼が格納されている。ここで、学習に用いるのは、複数存在する称呼のうち第一称呼のみとする。これは、格納されているすべての称呼を学習データとして利用しようとすると、1つの表示用商標に対して異なる複数の読み方が定義されることとなってしまい、ニューラルネットの学習がうまく行われなくなってしまうからである。たとえば、本図に表す表示用商標が「日本特許情報機構」(登録商標)である場合、対応する称呼は4つ格納されているが、学習に用いるのは、第一称呼の「ニッポントッキョジョーホーキコー」のみである。なお、整理標準化データ以外にも、特許情報標準データなどの書誌・経過情報に関するデータを用いることができる。
次に、ステップ2にて、抽出された両者に対して文字単位のトークナイズ(構成要素に分割すること)を行う。たとえば、表示用商標「日本特許情報機構」は「日 本 特 許 情 報 機 構」と、称呼「ニッポントッキョジョーホーキコー」は「ニ ッ ポ ン ト ッ キ ョ ジ ョ ー ホ ー キ コ ー」とトークナイズを行う。文字単位のトークナイズは、意味・概念把握を旨とする機械翻訳を含む自然言語処理の分野では効果的でないため、どのようなタスクにおいてもほぼ採用されることがない。しかし、多種多様な文字種が混在する商標のような文字列においては、文字単位のトークナイズが最も効果的なトークナイズ方法となる。これは、多種多様な文字種が混在するような文字列においては、いわゆる形態素の区切りを判断することが困難、あるいは、辞書を作成して形態素の区切りを定義すること自体が不適当となりうるためである。
次に、ステップ3にて、文字単位に分割された文字列を辞書ID列に変換する。たとえば、「日 本 特 許 情 報 機 構」は「142 153 482 991 3416 389 379 900」と、「ニ ッ ポ ン ト ッ キ ョ ジ ョ ー ホ ー キ コ ー」は「38 8 60 2 7 8 21 32 16 32 1 63 1 21 18 1」と変換される。ここで用いる辞書は、ニューラルネットの入力側については、表示用商標に含まれるすべての文字を重複なしカウントすることによって作成する。ニューラルネットの出力側についても、同様の手法で辞書の作成を行うが、出力側の辞書に含まれる文字は、小文字等も含む全てのカタカナ文字である。両者の登録アイテム数は、それぞれ、4,098個、84個である。
ここで、トランスフォーマーをはじめとする機械翻訳用途のニューラルネットのパラメータ数は、辞書の登録アイテム数の2乗に比例する。通常の機械翻訳に用いられるニューラルネット用の辞書アイテム数は、1万程度であるため、それらのニューラルネットに比べて、本発明で用いられるニューラルネットのサイズは非常にスリムとなる。
最後に、ステップ4にて学習を行う。学習器200による学習は、通常のトランスフォーマーを用いたニューラル機械翻訳と同様の方法で行われる。ただし、本発明は、形態素又は形態素をさらに分割したサブワードを入力単位とする通常のニューラル機械翻訳とは異なり、文字を入力単位とするものである。そのため、整理標準化データからコーパスを生成した場合、入力側の文字種は、アルファベット、ひらがな、カタカナ、漢字及び特殊文字等が想定され、出力側の文字種はカタカナが想定されることとなる。
前述の通り、本発明におけるニューラルネットは機械翻訳用のニューラルネットに比べて非常にスリムであるため、機械翻訳機を学習させる際と同じ条件で学習を行えば、約1日で学習を終了させることができる。
なお、本発明においては、精度及び計算速度の双方で他のニューラルネットに対して利点を有するトランスフォーマーを変換モデルとして採用したが、LSTM(Long Short-Term Memory)やRNN(Recurrent Neural Network)等のニューラル機械翻訳で用いられるその他のニューラルネットを用いてもよい。
また、コーパスとして、整理標準化データや特許情報標準データなどの書誌・経過情報に関するデータ以外にも、国語辞典や外国語辞典などの文字列と日本語の読み方とがセットになったデータ等を用いてもよい。
次に、図4を参照しながら、変換器102による称呼の生成プロセスについて説明する。変換器102は、学習器200の学習によって得られた学習モデルを用いて称呼の推定を行う。
まず、変換器102は、分割された商標の文字列の情報から、称呼の最初の1文字を生成する。ここで、称呼を構成する文字種は整理標準化データと合わせてカタカナとしているが、ひらがなを始めとする他の音節文字であってもよい。図4では、入力文字列として「JAPIO」(登録商標)が例示されているが、最初の称呼生成ステップ(1)で生成される文字は、「ジ」である。
以後、変換器102は、既に生成したカタカナ文字又はひらがな文字の称呼列およびエンコーダーからの情報をもとに、終わりを示すトークンが出力されるまで、次に出現する文字種(カタカナ)をデコーダーにより逐次生成し続ける。なお、本明細書において「逐次生成」とは、読み方の文字列を順序を追って一文字ずつ生成することを意味する。変換器102は、文字単位に分割された文字列から、読み方の最初の一文字となるカタカナ文字又はひらがな文字を生成し、その後、既に生成された一又は複数のカタカナ文字又はひらがな文字に基づいて、当該既に生成された一又は複数のカタカナ文字又はひらがな文字の次に出現する一文字である、カタカナ文字又はひらがな文字を逐次生成していくことによって、文字単位に分割された文字列をカタカナ又はひらがなからなる読み方に変換する。
図4の称呼生成ステップ(2)においては、入力「ジ」から次の称呼文字としての「ャ」を、ステップ称呼生成ステップ(3)においては、入力「ジャ」から次の称呼文字としての「ピ」を、それぞれ生成するといった具合である。
読み方推定装置100が推定した称呼の例を、表1に示す。文字列分割器101における分割単位を文字とし、変換器102のニューラルネットをトランスフォーマーとしたため、全言語への対応が可能となったことが理解できる。なお、表1における文字商標のうち、「日本特許情報機構」及び「JAPIO」は登録商標である。
Figure 2022151023000002
本発明が多言語対応可能であるのは、トークナイズの単位を文字にしたことと、ニューラルネットにトランスフォーマーを採用したことによる。トークナイズを単語あるいはワードピース単位にすると、トークナイズ後の単語あるいはワードピースが、文字列作成者が想定した言語とは異なる辞書中のアイテムに対応付けられた場合に、もはや文字列作成者が想定した言語に沿った変換は困難である。一方、トークナイズの単位を文字にすると、このような不都合は発生しない。このようにトークナイズされる文字から構成される商標と日本語の読みに相当する称呼とのセットで学習された学習モデルにより、文字種が限定されないことは容易に理解されよう。たとえば、文字商標がマイナー言語のキリル文字、ハングル文字、アラビア文字、タイ文字、デーヴァナーガリー文字などから構成されていても、これらが複数連続した文字列とこの文字列に対応する称呼のセットにより学習された学習モデルを有すれば、読み方推定装置100は、これらその他の文字種であっても称呼を推定することが可能となる。また、本実施例では、文字商標の読み方推定装置100を説明しているが、本発明に係る読み方推定装置では、文字商標に限定されず、人名、地名、企業・団体名、漢字、外国語の固有名詞などの称呼を推定できることも容易に理解されよう。すなわち、トークナイズされる文字から構成される人名、地名、企業・団体名、漢字、外国語の固有名詞などと、日本語の読みに相当する称呼とのセットで学習された学習モデルにより、これらの人名等の読み方を推定できる。
また、トランスフォーマーのような注意機構を採用したニューラルネットは、デコーダー側でトークンを生成する際に、エンコーダー側の情報を全て参照することが可能であり、文字列全体の並びが示す特徴(言語等)に基づいた変換が可能となる。なお、LSTMの記憶ゲートでも、性能は劣るものの同様の効果を奏することができる。
学習データとして利用しなかった整理標準化データで精度検証を行ったところ、99.3%の精度であった。さらに、表示用商標と称呼とのペアを学習データとしているため、表2に示すとおり、「一般財団法人」、「株式会社」、「有限会社」等の識別力のない文字列を、称呼起こしの対象から除外するなどの効果も奏することができる。また、「JAPIO じゃぴお」という文字商標を称呼起こしする際に、重複する称呼である2つの「ジャピオ」を1つの称呼にまとめることも可能である。なお、表2における文字商標のうち、「一般財団法人日本特許情報機構」は登録商標である。
Figure 2022151023000003
このような称呼生成が可能であるのは、図3の各ステップで生成した学習データをトランスフォーマーで学習しているためである。トランスフォーマーによる翻訳処理については、従来の統計機械翻訳に比べ、学習データにおける訳抜けに起因する訳抜けが起こる技術的課題が報告されているが、このような、「変換抜け」をあえて生じさせないといけないような場合においては、トランスフォーマーのこの技術的欠点は逆に利点となりえる。
同様の理由で、制御文字も変換によって消失するので、前処理において特別に削除する必要がなくなる。これは、トランスフォーマーの注意機構というメカニズムによって可能となるものである。なお、LSTMの記憶ゲートでも、性能は劣るものの同様の効果を奏することができる。
そして、図5を参照しながら、意味・音調的チャンク分割器103の動作について説明する。意味・音調的チャンク分割器103は、変換器102が生成した称呼を、意味又は音調等から区切ることが可能であると判断した場合、称呼を区切って出力する。区切ることが可能かどうかの判断は、称呼において頻出する意味・音調的チャンクを登録した辞書データ等に基づいて行うことができる。たとえば、「日本特許情報機構」は、変換器102により「ニッポントッキョジョーホーキコー」と変換されるが、意味・音調的チャンク分割器103によりさらに「ニッポン トッキョ ジョーホー キコー」と区切って出力する。
一般的に、文字商標が冗長である場合、当該商標の全体の称呼のうちの、意味・音調的な単位の一部が、称呼として定着する場合がある。意味・音調的チャンク分割器103による分割によって、冗長な文字商標の称呼起こしを行うことが可能となる。
なお、上述したことは、文字列からその文字列の読み方を推定する読み方推定方法でもある。この読み方推定方法は、入力された文字列を文字単位に分割するステップと、ニューラルネットワークにより、文字単位に分割された文字列から、カタカナ文字又はひらがな文字を1文字ずつ逐次生成していくことによって、文字単位に分割された文字列をカタカナ又はひらがなからなる読み方に変換するステップと、を有する。また、本発明は、読み方推定方法における各ステップを実行させるプログラムおよびそのプログラムを記録したコンピュータによって読み取り可能な記録媒体を含むものである。これにより、本発明に係る読み方推定装置および方法等は、文字列の読み方に関する特別な辞書的データベースを作ることなく、様々な文字列の読み方、特に商標の称呼を推定できる。
読み方推定装置100は、文字列分割器101と変換器102を有する。なお、実施例1と同じ構成要素には同じ符号を付し、説明を省略する。文字列分割器101は、文字種分割器400で分割された文字列が入力される。称呼の分割は、前処理によって実現されてもよい。前処理で分割を行う際は、まず、文字種が切り替わる箇所で文字商標の分割を行う。具体的には、図6に示すように、まず、「JAPIO頂」(登録商標)という文字商標の分割された称呼を起こす際は、文字種分割器400がアルファベットから漢字に文字種が切り替わる箇所で文字商標の分割を行い、「JAPIO頂」という文字商標を、(1)「JAPIO」、(2)「頂」という2つの文字商標に分割する。
実施例2においては、この分割された文字商標について、それぞれ称呼起こしを行う。図6の場合においては、(1)「ジャピオ」、(2)「イタダキ」という2つの称呼が、それぞれ生成される。
上述の意味・音調的チャンクは、入力される文字商標の側から見た場合、日本語のような複数の文字種が入り乱れる言語においては、文字種が切り替わる箇所を区切りとして定義される場合が多い。この特性に注目して前処理を行えば、実施例1のように、意味・音調的チャンクを登録した辞書データ等を作成することなく、冗長な文字商標の称呼起こしを行うことが可能となる。
100 読み方推定装置
101 文字列分割器
102 変換器
103 意味・音調的チャンク分割器
200 学習器
300 コンピュータシステム
302 プロセッサ
302A、302B 汎用プログラマブル中央処理装置(CPU)
304 メモリ
306 メモリバス
308 I/Oバス
309 バスIF
310 I/OバスIF
312 端末インターフェース
314 ストレージインターフェース
316 I/Oデバイスインターフェース
318 ネットワークインターフェース
320 ユーザIOデバイス
322 ストレージ装置
324 表示システム
326 表示装置
330 ネットワーク
350 読み方推定アプリケーション
400 文字種分割器

Claims (16)

  1. 文字列から前記文字列の読み方を推定する読み方推定装置であって、
    入力された前記文字列を文字単位に分割する文字列分割器と、
    ニューラルネットが、文字単位に分割された前記文字列から、カタカナ文字又はひらがな文字を1文字ずつ逐次生成していくことによって、前記文字単位に分割された前記文字列をカタカナ又はひらがなからなる読み方に変換する変換器と、を有することを特徴とする読み方推定装置。
  2. 前記文字列はアルファベット、ひらがな、カタカナ、漢字、数字、その他の文字種、並びに、それらの組み合わせからなるものである、
    請求項1に記載の読み方推定装置。
  3. 前記文字列は文字商標であって、
    前記読み方は前記文字商標の称呼である、
    請求項1又は2に記載の読み方推定装置。
  4. 前記ニューラルネットは、商標に関する整理標準化データにおける表示用商標を文字単位に分割したものと、前記整理標準化データにおける称呼を文字単位に分割したものとで学習されたものである、
    請求項1乃至3のいずれか一項に記載の読み方推定装置。
  5. 前記ニューラルネットはトランスフォーマーである、
    請求項1乃至4のいずれか一項に記載の読み方推定装置。
  6. 前記読み方を意味・音調的チャンクに分割する意味・音調的チャンク分割器、を備える、
    請求項1乃至5のいずれか一項に記載の読み方推定装置。
  7. 入力された前記文字列を、文字種が切り替わる箇所で分割する文字種分割器、を備え、
    前記文字列分割器及び前記変換器は、前記文字種分割器により文字種が切り替わる箇所で分割された複数の文字列に対して処理を行う、
    請求項1乃至6のいずれか一項に記載の読み方推定装置。
  8. 文字列から前記文字列の読み方を推定する読み方推定方法であって、
    入力された前記文字列を文字単位に分割するステップと、
    ニューラルネットにより、文字単位に分割された前記文字列から、カタカナ文字又はひらがな文字を1文字ずつ逐次生成していくことによって、前記文字単位に分割された前記文字列をカタカナ又はひらがなからなる読み方に変換するステップと、を有することを特徴とする読み方推定方法。
  9. 前記文字列はアルファベット、ひらがな、カタカナ、漢字、数字、その他の文字種、並びに、それらの組み合わせからなるものである、
    請求項8に記載の読み方推定方法。
  10. 前記文字列は文字商標であって、
    前記読み方は前記文字商標の称呼である、
    請求項8又は9に記載の読み方推定方法。
  11. 前記ニューラルネットは、商標に関する整理標準化データにおける表示用商標を文字単位に分割したものと、前記整理標準化データにおける称呼を文字単位に分割したものとで学習されたものである、
    請求項8乃至10のいずれか一項に記載の読み方推定方法。
  12. 前記ニューラルネットはトランスフォーマーである、
    請求項8乃至11のいずれか一項に記載の読み方推定方法。
  13. 前記読み方を意味・音調的チャンクに分割するステップ、を備える、
    請求項8乃至12のいずれか一項に記載の読み方推定方法。
  14. 入力された前記文字列を、文字種が切り替わる箇所で分割するステップ、を備え、
    前記入力された前記文字列を文字単位に分割するステップ、及び、前記文字をカタカナ又はひらがなからなる読み方に変換するステップにおいては、文字種が切り替わる箇所で分割された複数の文字列に対して処理が行われる、
    請求項8乃至13のいずれか一項に記載の読み方推定方法。
  15. 請求項8乃至14のいずれか一項に記載の読み方推定方法における各ステップを実行させるプログラム。
  16. 請求項8乃至14のいずれか一項に記載の読み方推定方法における各ステップを実行させるプログラムを記録した、コンピュータによって読み取り可能な記録媒体。
JP2021053896A 2021-03-26 2021-03-26 読み方推定装置、読み方推定方法、読み方推定プログラム、および記録媒体 Pending JP2022151023A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021053896A JP2022151023A (ja) 2021-03-26 2021-03-26 読み方推定装置、読み方推定方法、読み方推定プログラム、および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021053896A JP2022151023A (ja) 2021-03-26 2021-03-26 読み方推定装置、読み方推定方法、読み方推定プログラム、および記録媒体

Publications (1)

Publication Number Publication Date
JP2022151023A true JP2022151023A (ja) 2022-10-07

Family

ID=83464915

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021053896A Pending JP2022151023A (ja) 2021-03-26 2021-03-26 読み方推定装置、読み方推定方法、読み方推定プログラム、および記録媒体

Country Status (1)

Country Link
JP (1) JP2022151023A (ja)

Similar Documents

Publication Publication Date Title
Obeid et al. CAMeL tools: An open source python toolkit for Arabic natural language processing
JP5513898B2 (ja) 共有された言語モデル
JP2016186805A5 (ja)
Harish et al. A comprehensive survey on Indian regional language processing
JP2014142951A (ja) 中国語、日本語、および韓国語の言語データを電子的形態で管理するためのモジュラーシステムと方法
Aqlan et al. Arabic–Chinese neural machine translation: Romanized Arabic as subword unit for Arabic-sourced translation
Onyenwe et al. A Basic Language Resource Kit Implementation for the Igbo NLP Project
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
Jamro Sindhi language processing: A survey
Sharma et al. Word prediction system for text entry in Hindi
JP7247460B2 (ja) 対応関係生成プログラム、対応関係生成装置、対応関係生成方法、及び翻訳プログラム
JP4018668B2 (ja) 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム
Lu et al. An automatic spelling correction method for classical mongolian
Destaw et al. Question answering classification for Amharic social media community based questions
JP2022151023A (ja) 読み方推定装置、読み方推定方法、読み方推定プログラム、および記録媒体
WO2022079845A1 (ja) 単語対応装置、学習装置、単語対応方法、学習方法、及びプログラム
Alsayed et al. A performance analysis of transformer-based deep learning models for Arabic image captioning
Ahmadi et al. Script normalization for unconventional writing of under-resourced languages in bilingual communities
Kaya et al. Using finite state transducers for helping foreign language learning
JP3285149B2 (ja) 外国語電子辞書検索方法及び装置
Pathak et al. Part-of-speech tagger for Bodo language using deep learning approach
Rajendran et al. Text processing for developing unrestricted Tamil text to speech synthesis system
US20240220740A1 (en) Automatic construction method for parallel corpora and information processing apparatus
Hogan OCR for minority languages
Kaur Jolly et al. Parts of speech tagging for punjabi language using supervised approaches

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240226