JP7000181B2 - 言語処理方法及び言語処理システム - Google Patents

言語処理方法及び言語処理システム Download PDF

Info

Publication number
JP7000181B2
JP7000181B2 JP2018018194A JP2018018194A JP7000181B2 JP 7000181 B2 JP7000181 B2 JP 7000181B2 JP 2018018194 A JP2018018194 A JP 2018018194A JP 2018018194 A JP2018018194 A JP 2018018194A JP 7000181 B2 JP7000181 B2 JP 7000181B2
Authority
JP
Japan
Prior art keywords
natural language
converted
character string
code point
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018018194A
Other languages
English (en)
Other versions
JP2019135593A (ja
Inventor
晃 下山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Solutions Create Ltd
Original Assignee
Hitachi Solutions Create Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Solutions Create Ltd filed Critical Hitachi Solutions Create Ltd
Priority to JP2018018194A priority Critical patent/JP7000181B2/ja
Publication of JP2019135593A publication Critical patent/JP2019135593A/ja
Application granted granted Critical
Publication of JP7000181B2 publication Critical patent/JP7000181B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、深層学習により自然言語処理を行う言語処理システムに関する。
近年、様々な分野で深層学習が普及している。自然言語処理においても、文字や単語を数値化して深層学習を行うことによって、様々な問題において従来手法と同等以上の精度を達成できることが報告されている。
文字列データを入力とする深層学習を行う場合、一般的には文字又は単語毎に割り当てられた固有のIDを入力する。このID(文字コード)は、非特許文献1では1-of-k表現に変換して処理に使用している。又は、分散表現や単語埋め込みと称されるID毎に固有の数値ベクトルに変換する際に使用される。また、非特許文献2では、この数値ベクトルを事前に文章から学習することによって、類似する文脈に出現する単語が近い数値ベクトルになるようにマッピングしている。また、非特許文献3では、事前学習により文字の形に応じた値を設定している。
Character-level Convolutional Networks for Text Classification,[平成30年1月6日検索]、インターネット〈URL:http://papers.nips.cc/paper/5782-character-level-convolutional-networks-for-text-classification.pdf〉 Efficient Estimation of Word Representations in Vector Space,[平成30年1月6日検索]、インターネット〈URL:https://arxiv.org/abs/1301.3781〉 Document Classification through Image-Based Character Embedding and Wildcard Training,[平成30年1月6日検索]、インターネット〈URL:http://ucrel.lancs.ac.uk/bignlp2016/Shimada.pdf〉
前述した非特許文献1の方法は、文字の順序性を考慮できない。例えば「一」「ニ」「三」や「1」「2」「3」のような文字についても、「それぞれが別の文字である」こと以外のヒントが無い状態から学習を行うため、未知の文字・単語に弱く、大量の学習データが必要になる。非特許文献2及び非特許文献3の方法では、「1」「2」「3」などに関しては、似た文脈に出現する又は似た字形であるため、類似したベクトルが割り当てられることにより、必要な学習データ量の削減が期待できる。しかしながら、これらの方法も順序性は考慮されていない。また、事前に文字の画像を用いた学習を行う必要がある。
本発明の目的は、文字の種類及び順序性を考慮した深層学習によって、少数の学習データで高精度の推測が可能となる自然言語処理装置を提供することにある。
本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、言語処理システムが実行する言語処理方法であって、言語処理システムは、所定の処理を実行する演算装置と、前記演算装置に接続された記憶装置とを有し、前記方法は、前記演算装置が、自然言語文字列を学習する学習部を構成し、前記演算装置が、学習すべき自然言語文字列が入力されると、該自然言語文字列をunicodeのコードポイントに変換し、前記変換されたunicodeのコードポイントをビット列に分解し、前記ビット列を二進数で表現される数値ベクトル化した後に前記学習部に入力し、前記学習部が、unicodeのコードポイントに変換された自然言語文字列を学習し、unicodeのコードポイントは、文字の種類及び順序性に従った順序で定められていることを特徴とする。
本発明の一態様によれば、少数の学習データで高精度の推測が可能となる。前述した以外の課題、構成及び効果は、以下の実施例の説明によって明らかにされる。
本発明に係る自然言語処理装置の構成を示すブロック図である。 学習用データベースの構成例を示す図である。 予測用データベースの構成例を示す図である。 自然言語処理装置が実行する処理の概要を示すフローチャートである 自然言語処理装置が実行する処理の概要を示すフローチャートである 数値化処理部が実行する数値化処理のフローチャートである。 予測結果データの構成例を示す図である。
以下、図面を参照しながら、本発明に係る自然言語処理装置の実施例を説明する。後述する実施例やその説明は本発明の一例であり、本発明の範疇には様々な変形例が含まれる。
<システム構成>
図1~図6は、本発明の実施例を示す図であり、これらの図において、同一の符号を付した部分は同一物を表し、基本的な構成及び動作は同様である。
図1は、本発明に係る自然言語処理装置の構成を示すブロック図である。
自然言語処理装置は、自然言語を含む入力データから何らかの推定値を出力する装置である。自然言語処理装置は、中央処理装置010、データメモリ020、プログラムメモリ030、学習用データベース040、予測用データベース050、表示装置060、キーボード070及びポインティングデバイス080を有する計算機システムによって構成される。中央処理装置010は、データメモリ020、プログラムメモリ030、学習用データベース040、予測用データベース050、表示装置060、キーボード070及びポインティングデバイス080と相互に接続されている。
中央処理装置010は、数値化処理部011、ニューラルネットワーク学習処理部012及びニューラルネットワーク予測処理部013を有する。これらの各部は、中央処理装置010が所定のプログラムを実行することによって実現される。なお、自然言語処理装置がプログラムを実行して行う処理の一部をハードウェア(例えば、FPGA)で行ってもよい。
数値化処理部011は、入力データの自然言語を、ニューラルネットワークで処理可能な数値形式へ変換する。ニューラルネットワーク学習処理部012は、学習用データベース040を用いてニューラルネットワークの学習を行う。ニューラルネットワーク予測処理部013は、予測用データベース050の予測用データから値を予測する。
データメモリ020は、中央処理装置010の各処理部が、入力データから値の予測を行い、その結果を表示するために用いる各種パラメタ及びデータを格納する。具体的には、データメモリ020は、学習用データ021、予測用データ022、ニューラルネットワーク023及び予測結果データ024を格納する。
中央処理装置010が実行するプログラムは、リムーバブルメディア(CD-ROM、フラッシュメモリなど)又はネットワークを介して自然言語処理装置に提供され、非一時的記憶媒体である不揮発性の補助記憶装置に格納される。このため、自然言語処理装置は、リムーバブルメディアからデータを読み込むインターフェースを有するとよい。
自然言語処理装置は、物理的に一つの計算機上で、又は、論理的又は物理的に構成された複数の計算機上で構成される計算機システムであり、複数の物理的計算機資源上に構築された仮想計算機上で動作してもよい。
図2は、学習用データベース040の構成例を示す図である。
学習用データベース040には、予め使用者が入力データと、入力データから推定したい既知の値のペアを登録するデータである。学習用データベース040は、入力データ201及び正解ラベル202のデータフィールドを有する。入力データ201は、ニューラルネットワークによる処理の対象となる自然言語の文字列データである。正解ラベル202は、入力データ201に対して、ニューラルネットワークに出力させたい既知の値である。
図3は、予測用データベース050の構成例を示す図である。
予測用データベース050には、予め使用者が、推定したい値が未知の入力データを登録する。予測用データベース050は、入力データ301のデータフィールドを有する。入力データ301は、ニューラルネットワークで推定したい正解ラベルが未知の自然言語の文字列データである。
<システム動作について>
図4及び図5は、自然言語処理装置が実行する処理の概要を示すフローチャートである。
本自然言語処理装置の処理は、学習フェーズと予測フェーズに分かれる。図4に示す学習フェーズでは、学習用データベース040を用いてニューラルネットワーク023の学習を行う。図5に示す予測フェーズでは、学習済みニューラルネットワーク023を用いて予測用データ300に対する予測を出力する。
自然言語処理装置の処理概要のフローチャートについて説明する。
図4に示す学習処理では、まず、学習用データベース040から学習用データ021を読み込む(S401)。次に、数値化処理部011が、学習用データベース040の数値化処理を行う(S402)。数値化処理の詳細は図6で後述する。次に、ニューラルネットワーク学習処理部012が、数値化した学習用データ021を用いてニューラルネットワーク023の学習を行う(S403)。
図5に示す予測処理では、予測用データベース050から予測用データ022を読み込み(S501)、数値化処理部011が数値化処理を行う(S502)。次に、ニューラルネットワーク予測処理部013が、学習済みニューラルネットワーク023及び数値化済み予測用データ022を用いて予測を行い、予測結果データ024を得る(S503)。
図6は、数値化処理部011が実行する数値化処理のフローチャートである。
数値化処理は、学習用データベース040及び予測用データベース050に記録される自然言語の文字列を、ニューラルネットワークで処理可能な数値ベクトル列へ変換する処理である。
数値化処理では、まず、学習用データベース040又は予測用データベース050のそれぞれのデータ件数分、ステップS601からS604をループし、各データベースから入力データを読み込む(S601、S602)。
次に、入力データの文字ごとにステップS603からS604をループし、文字のUnicodeのコードポイント値を取得する(S603)。コードポイント値は、Unicodeの規格により定められた、文字毎に一意の整数値である。文字のUnicodeのコードポイント値は、一般的な表記方法に従って、先頭に”U+”を付けた16進数で表記する。例えば「図」は「U+56F3」、「1」は「U+FF11」となる。
次に、取得したコードポイント値をビット表現に変換する(S604)。Unicodeのコードポイント値は21ビットの整数値であるため、二進数で表現すると21桁の0又は1の並びで表される。これを1桁ずつ分けて数値ベクトルにする。例えば、コードポイント値が「U+56F3」の場合、二進数で「000000101011011110011」であるため、ベクトル(0,0,0,0,0,0,1,0,1,0,1,1,0,1,1,1,1,0,0,1,1)に変換する。
この数値化処理で、例えば入力データ「図1、2に…」は、ベクトル列「(0,0,0,0,0,0,1,0,1,0,1,1,0,1,1,1,1,0,0,1,1)、(0,0,0,0,0,1,1,1,1,1,1,1,1,0,0,0,1,0,0,0,1)、(0,0,0,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,0,0,1)、(0,0,0,0,0,1,1,1,1,1,1,1,1,0,0,0,1,0,0,1,0)、…」に変換される。
Unicodeのコードポイント値の上位ビットは文字の種類を示しており、例えばU+0000~U+FFFFは基本多言語面と称される基本的な文字や記号の領域であり、そのうちU+2000~U+2DFFは記号、U+3400~9FFFは漢字となっている。また、コードポイント値の下位ビットは、概ね文字の順序性を表していることが多い。例えば「1」「2」「3」は、それぞれU+0031、U+0032、U+0033となっており、「A」「B」「C」は、それぞれU+0041、U+0042、U+0043となっている。コードポイント値は、このような性質をもっているため、コードポイント値を用いてニューラルネットワークで処理することにより、文字の種類や順序性が自然に学習され、文字の種類や順序性が考慮して予測できる。
このような順序性を表現したデータ形式でニューラルネットワークで学習することによって、例えば学習用データに「2」「4」は出現するが「3」が出現せず、予測用データには「3」が含まれている場合に、「3」は「2」や「4」と同種の文字であり、「3」を「2」と「4」の中間の値として処理する学習結果が得られる。一方、一般的な、順序性が考慮されていない形式のコードを使用した場合、学習用データに「3」が含まれていなければ「3」を「2」や「4」と同種の文字として処理する学習結果が得られる可能性が低い。そのため、本発明の方法では、一般的なコード体系を用いた方法より、効率的に学習ができ、少ない学習用データでも高い能力が得られる。
また、コードポイント値そのものを入力とせず、前述のビット表現化によりコードポイント値を分解した数値ベクトル列として入力する。ニューラルネットワークは「-10~+10程度までの整数値又は実数値の入力に向いた機械学習モデルである」という特性があるところ、このようなニューラルネットワークの特性に適する学習ができる。
図7は、予測結果データ024の構成例を示す図である。
予測結果データ024は、ニューラルネットワーク予測処理部013が出力した予測結果を保持する。予測結果データ024は、入力データ701及び予測結果702のデータフィールドを有する。入力データ701は、入力された予測用データである。予測結果702は、学習済みニューラルネットワーク及び数値化済み予測用データを用いて予測を行った結果である。
以上に説明したように、本発明の実施例の言語処理システムは、自然言語文字列を学習する学習部を構成し、学習すべき自然言語文字列が入力されると、該自然言語文字列を所定の文字コードに変換した後に前記学習部に入力するものであって、前記学習部が、前記所定の文字コードに変換された自然言語文字列を学習し、前記所定の文字コードは、文字の種類及び順序性に従った順序で定められているので、文字の種類及び順序性を考慮して深層学習が可能となり、少ない学習データでニューラルネットワークに学習させることができる。また、文字の順序性を学習でき、事前に学習していない未知の文字でも結果を推測できる。
また、前記所定の文字コードは、unicodeのコードポイントとしたので、一般的なライブラリで使用しやすい。また、文字のカバー範囲が広く、かつ並びが整っていることから正しい学習結果を得られやすい。
また、前記入力された自然言語文字列を前記所定の文字コードに変換し、前記変換された文字コードをビット列に分解し、前記ビット列をベクトル化して学習部に入力するので、ニューラルネットワークの特性に適する学習ができる。
また、言語処理システムは、自然言語文字列から結果を推測する推測部を構成し、学習すべき自然言語文字列が入力されると、該自然言語文字列を所定の文字コードに変換した後に前記推測部に入力するものであって、前記推測部は、前記所定の文字コードに変換された自然言語文字列から結果を推測するので、適切な学習結果を用いて、適確な結果を推測できる。
なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。例えば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加・削除・置換をしてもよい。
また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。
各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記憶装置、又は、ICカード、SDカード、DVD等の記録媒体に格納することができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。
010 中央処理装置
011 数値化処理部
012 ニューラルネットワーク学習処理部
013 ニューラルネットワーク予測処理部
020 データメモリ
021 学習用データ
022 予測用データ
023 ニューラルネットワーク
024 予測結果データ
030 プログラムメモリ
040 学習用データベース
050 予測用データベース
060 表示装置
070 キーボード
080 ポインティングデバイス

Claims (4)

  1. 言語処理システムが実行する言語処理方法であって、
    言語処理システムは、所定の処理を実行する演算装置と、前記演算装置に接続された記憶装置とを有し、
    前記方法は、
    前記演算装置が、自然言語文字列を学習する学習部を構成し、
    前記演算装置が、学習すべき自然言語文字列が入力されると、該自然言語文字列をunicodeのコードポイントに変換し、前記変換されたunicodeのコードポイントをビット列に分解し、前記ビット列を二進数で表現される数値ベクトル化した後に前記学習部に入力し、
    前記学習部が、unicodeのコードポイントに変換された自然言語文字列を学習し、
    unicodeのコードポイントは、文字の種類及び順序性に従った順序で定められていることを特徴とする言語処理方法。
  2. 請求項1に記載の言語処理方法であって、
    前記演算装置が、自然言語文字列から結果を推測する推測部を構成し、
    前記演算装置が、学習すべき自然言語文字列が入力されると、該自然言語文字列をunicodeのコードポイントに変換し、前記変換されたunicodeのコードポイントをビット列に分解し、前記ビット列を二進数で表現される数値ベクトル化して学習部に入力した後に前記推測部に入力し、
    前記推測部が、unicodeのコードポイントに変換された自然言語文字列から結果を推測することを特徴とする言語処理方法。
  3. 言語処理システムであって、
    所定の処理を実行する演算装置と、前記演算装置に接続された記憶装置とを備え、
    前記演算装置は、
    自然言語文字列を学習する学習部を構成し、
    学習すべき自然言語文字列が入力されると、該自然言語文字列をunicodeのコードポイントに変換し、前記変換されたunicodeのコードポイントをビット列に分解し、前記ビット列を二進数で表現される数値ベクトル化した後に前記学習部に入力するものであって、
    前記学習部が、unicodeのコードポイントに変換された自然言語文字列を学習し、
    unicodeのコードポイントは、文字の種類及び順序性に従った順序で定められていることを特徴とする言語処理システム。
  4. 請求項3に記載の言語処理システムであって、
    前記演算装置は、
    自然言語文字列から結果を推測する推測部を構成し、
    学習すべき自然言語文字列が入力されると、該自然言語文字列をunicodeのコードポイントに変換し、前記変換されたunicodeのコードポイントをビット列に分解し、前記ビット列を二進数で表現される数値ベクトル化して学習部に入力した後に前記推測部に入力するものであって、
    前記推測部は、unicodeのコードポイントに変換された自然言語文字列から結果を推測することを特徴とする言語処理システム。
JP2018018194A 2018-02-05 2018-02-05 言語処理方法及び言語処理システム Active JP7000181B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018018194A JP7000181B2 (ja) 2018-02-05 2018-02-05 言語処理方法及び言語処理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018018194A JP7000181B2 (ja) 2018-02-05 2018-02-05 言語処理方法及び言語処理システム

Publications (2)

Publication Number Publication Date
JP2019135593A JP2019135593A (ja) 2019-08-15
JP7000181B2 true JP7000181B2 (ja) 2022-01-19

Family

ID=67623715

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018018194A Active JP7000181B2 (ja) 2018-02-05 2018-02-05 言語処理方法及び言語処理システム

Country Status (1)

Country Link
JP (1) JP7000181B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114144266A (zh) 2019-07-23 2022-03-04 杰富意钢铁株式会社 轧制方法、金属板的制造方法及轧制装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017151933A (ja) 2016-02-26 2017-08-31 エヌ・ティ・ティ・コミュニケーションズ株式会社 データ分類装置、データ分類方法、及びプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017151933A (ja) 2016-02-26 2017-08-31 エヌ・ティ・ティ・コミュニケーションズ株式会社 データ分類装置、データ分類方法、及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
宮崎 和光 外2名,ディプロマ・ポリシーと学位に付記する専攻分野の名称の整合性に関する研究 -深層学習による接近-,電気学会研究会資料,日本,一般社団法人電気学会,2017年12月08日,pp.23-28
氏原 淳志,第2章 ディープラーニング入門 CNNで画像分類とドキュメント分類にチャレンジ!,SoftwareDesign,日本,(株)技術評論社,2017年08月18日,第322号,pp.26-34

Also Published As

Publication number Publication date
JP2019135593A (ja) 2019-08-15

Similar Documents

Publication Publication Date Title
US11468233B2 (en) Intention identification method, intention identification apparatus, and computer-readable recording medium
WO2021082953A1 (zh) 机器阅读理解方法、设备、存储介质及装置
US10747962B1 (en) Artificial intelligence system using phrase tables to evaluate and improve neural network based machine translation
JP5751251B2 (ja) 意味抽出装置、意味抽出方法、および、プログラム
JP2011018330A (ja) 統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法
JP2009500755A (ja) 文書視覚構造の文法的な解析
JP2021033995A (ja) テキスト処理装置、方法、デバイス及びコンピューター読み取り可能な記憶媒体
WO2020170912A1 (ja) 生成装置、学習装置、生成方法及びプログラム
US20200234009A1 (en) Word semantic relation estimation device and word semantic relation estimation method
JP2023007376A (ja) 情報抽出方法、装置、電子デバイス及び可読記憶媒体
EP3404553A1 (en) Open information extraction method and system for extracting reified ternary relationship
JP7000181B2 (ja) 言語処理方法及び言語処理システム
CN114722796A (zh) 用于中文文本错误识别与校正的架构
JP5342760B2 (ja) 訳語学習のためのデータを作成する装置、方法、およびプログラム
JP2009295097A (ja) 情報分類装置、情報分類方法、情報処理プログラム及び記録媒体
JP2023181819A (ja) 言語処理装置、機械学習方法、推定方法及びプログラム
JP2020021343A (ja) 解析装置、解析方法及びプログラム
CN113420127A (zh) 威胁情报处理方法、装置、计算设备及存储介质
Lanchantin et al. Transfer learning with motiftrans-formers for predicting protein-protein interactions between a novel virus and humans
US20220171928A1 (en) Information processing method, computer-readable recording medium storing information processing program, and information processing device
WO2024038600A1 (ja) 機械翻訳装置、機械学習方法、機械翻訳方法、及びプログラム
JP7435740B2 (ja) 音声認識装置、制御方法、及びプログラム
JP7305423B2 (ja) 係り受け解析システム及び係り受け解析方法
JP6957388B2 (ja) 業務用語判別装置、及び業務用語判別方法
JP7200474B2 (ja) 変換補助装置、変換補助システム、変換補助方法及びコンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200622

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210416

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210525

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210714

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211221

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211223

R150 Certificate of patent or registration of utility model

Ref document number: 7000181

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150