JP2021162917A - 情報処理装置及び情報処理方法 - Google Patents
情報処理装置及び情報処理方法 Download PDFInfo
- Publication number
- JP2021162917A JP2021162917A JP2020061284A JP2020061284A JP2021162917A JP 2021162917 A JP2021162917 A JP 2021162917A JP 2020061284 A JP2020061284 A JP 2020061284A JP 2020061284 A JP2020061284 A JP 2020061284A JP 2021162917 A JP2021162917 A JP 2021162917A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- character string
- information
- information processing
- processing device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
【課題】柔軟な文字列の品詞推定を可能にする。【解決手段】本開示に係る情報処理装置は、品詞の推定対象となる文字列を取得する取得部と、前記文字列が変換されたバイト列に基づいて、前記文字列の品詞を推定する品詞推定情報を生成する生成部と、を備える。【選択図】図3
Description
本開示は、情報処理装置及び情報処理方法に関する。
文章中の各単語(文字列)の品詞を推定する技術が提供されている。例えば、形態素の単位に分割して品詞を付与する形態素解析システムが提供されている(例えば、特許文献1)。
従来技術によれば、入力文章を受け取り、事前に定義された形態素の単位に分割し、品詞などを付与する。
しかしながら、従来技術は、文字列の品詞を適切に推定することができるとは限らない。例えば、従来技術は、日本語を対象として、事前に定義された形態素の単位に分割し、その分割を基に品詞を付与している。そのため、従来技術は、日本語以外の言語に対応することが難しく、また、事前に定義された形態素に含まれない文字列(未知語)の品詞を適切に推定することは難しいといった課題がある。そのため、柔軟な文字列の品詞推定を可能にすることが望まれている。
そこで、本開示では、柔軟な文字列の品詞推定を可能にすることができる情報処理装置及び情報処理方法を提案する。
上記の課題を解決するために、本開示に係る一形態の情報処理装置は、品詞の推定対象となる文字列を取得する取得部と、前記文字列が変換されたバイト列に基づいて、前記文字列の品詞を推定する品詞推定情報を生成する生成部と、を備える。
以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、この実施形態により本願にかかる情報処理装置及び情報処理方法が限定されるものではない。また、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
以下に示す項目順序に従って本開示を説明する。
1.実施形態
1−1.本開示の実施形態に係る情報処理の概要
1−1−1.背景及び効果等
1−1−2.モデルの生成
1−2.実施形態に係る情報処理装置の構成
1−2−1.モデル例
1−3.実施形態に係る情報処理の手順
1−4.品詞推定情報生成例
1−5.処理フロー例
1−5−1.品詞推定のフロー例
1−5−2.形態素解析のフロー例
1−5−3.応用アプリケーションのフロー例
1−5−4.アプリケーション統合フロー例
1−6.形態素解析
1−6−1.未知語を含む形態素解析の事例その1
1−6−2.未知語を含む形態素解析の事例その2
1−6−3.未知語を含む形態素解析の事例その3
2.その他の実施形態
2−1.変形例
2−2.その他の構成例
2−3.その他
3.本開示に係る効果
4.ハードウェア構成
1.実施形態
1−1.本開示の実施形態に係る情報処理の概要
1−1−1.背景及び効果等
1−1−2.モデルの生成
1−2.実施形態に係る情報処理装置の構成
1−2−1.モデル例
1−3.実施形態に係る情報処理の手順
1−4.品詞推定情報生成例
1−5.処理フロー例
1−5−1.品詞推定のフロー例
1−5−2.形態素解析のフロー例
1−5−3.応用アプリケーションのフロー例
1−5−4.アプリケーション統合フロー例
1−6.形態素解析
1−6−1.未知語を含む形態素解析の事例その1
1−6−2.未知語を含む形態素解析の事例その2
1−6−3.未知語を含む形態素解析の事例その3
2.その他の実施形態
2−1.変形例
2−2.その他の構成例
2−3.その他
3.本開示に係る効果
4.ハードウェア構成
[1.実施形態]
[1−1.本開示の実施形態に係る情報処理の概要]
図1及び図2は、本開示の実施形態に係る情報処理の一例を示す図である。具体的には、図1は、文字列が未知語であるか否かに応じて、品詞を推定する処理(推定処理)の一例を示す図である。図2は、未知語を対象として品詞を推定する場合の品詞推定モデル(以下単に「モデル」ともいう)を用いた推定処理の概要を示す。なお、ここで言う未知語とは、所定の辞書に含まれていない文字列をいう。例えば、未知語とは、コーパス等に基づく辞書に含まれていない文字列をいう。
[1−1.本開示の実施形態に係る情報処理の概要]
図1及び図2は、本開示の実施形態に係る情報処理の一例を示す図である。具体的には、図1は、文字列が未知語であるか否かに応じて、品詞を推定する処理(推定処理)の一例を示す図である。図2は、未知語を対象として品詞を推定する場合の品詞推定モデル(以下単に「モデル」ともいう)を用いた推定処理の概要を示す。なお、ここで言う未知語とは、所定の辞書に含まれていない文字列をいう。例えば、未知語とは、コーパス等に基づく辞書に含まれていない文字列をいう。
本開示の実施形態に係る情報処理は、図3に示す情報処理装置100によって実現される。図3に示す情報処理装置100は、品詞推定を行う情報処理装置の一例である。情報処理装置100は、実施形態に係る情報処理を実行する情報処理装置である。情報処理装置100は、ユーザに利用される端末装置である。図1では、ユーザが利用する端末装置である情報処理装置100が品詞推定を行う例を示す。例えば、情報処理装置100は、スマートフォンや、タブレット型端末や、スマートスピーカや、ノート型PC(Personal Computer)や、デスクトップPCや、携帯電話機や、PDA(Personal Digital Assistant)等、ユーザによって利用される種々の装置であってもよい。
なお、品詞推定を行う装置はユーザが利用する端末装置に限らず、どのような装置であってもよい。例えば、品詞推定を行う情報処理装置と、ユーザが利用する端末装置とは別体であってもよい。なお、サーバ側で品詞推定を行う場合のシステム構成等については後述する。
図1の例では、日本語を一例として説明するが、情報処理装置100が実行する情報処理は、日本語に限らず、英語やフランス語や韓国語等の種々の言語が対象であってもよい。例えば、情報処理装置100が実行する情報処理は、後述する辞書情報がある言語であれば、どのような言語を対象としてもよい。例えば、情報処理装置100が実行する情報処理は、品詞推定モデルがある言語であれば、どのような言語を対象としてもよい。すなわち、情報処理装置100は、後述する品詞推定の処理が実行可能であれば、どのような言語を対象に処理を行ってもよい。
図1の例では、説明のために品詞の分類(カテゴリ)として、「noun」、「verb」、「adverb」、「preposition」「adjective」、「auxiliary verb」の6個を一例として示す。すなわち、図1の例では、対象とする文字列の品詞が、名詞、動詞、副詞、前置詞、形容詞、助動詞のいずれであるかを、情報処理装置100が推定する場合を示す。なお、図1に示す品詞の分類は一例であり、品詞の分類は上記の6個に限らず、種々の分類であってもよい。また、品詞の分類は、6個より少ない分類であってもよいし、6個より多い分類であってもよい。
例えば、品詞の分類は、下記の文献に開示されるような十数以上の分類(カテゴリ)であってもよい。このように、品詞の分類には、多言語共通タグセットの情報が用いられてもよい。
・Universal POS tags <https://universaldependencies.org/u/pos/>
・Universal POS tags <https://universaldependencies.org/u/pos/>
また、例えば、対象とする言語が日本語である場合、品詞の分類は、下記の文献に開示されるような分類(カテゴリ)であってもよい。このように、品詞の分類には、日本語unidicの情報が用いられてもよい。この場合、例えば品詞の分類として、最上位の分類(大分類)が用いられてもよいし、それよりも下位の分類(中分類、小分類、細分類等)が用いられてもよい。
・UniDicの品詞体系 <https://www.ogiso.net/wiki/index.php?%BC%F8%B6%C8%BB%F1%CE%C1/UniDic%A4%CE%C9%CA%BB%EC%C2%CE%B7%CF>
・UniDicの品詞体系 <https://www.ogiso.net/wiki/index.php?%BC%F8%B6%C8%BB%F1%CE%C1/UniDic%A4%CE%C9%CA%BB%EC%C2%CE%B7%CF>
なお、上述した各文献での品詞の分類も一例に過ぎず、品詞の分類は、対象とする言語や分類した品詞の用途等に応じて種々の分類であってもよい。
また、図1の例では、辞書情報記憶部141に記憶されていない文字列を「未知語」として処理する場合を示す。辞書情報記憶部141には、辞書に関する情報(以下「辞書情報」ともいう)が格納される。図1に示す辞書情報記憶部141は、日本語に関する辞書情報が格納される。例えば、辞書情報記憶部141は、各文字列が用いられた文章や各単語の品詞の確率分布を記憶する。例えば、品詞の確率分布は、文字列が用いられた文章のうち、その単語がその品詞として用いられた文章の割合を示す情報である。例えば、図1において単語Xの文章が100個あり、そのうち90個の文章で単語Xが動詞として用いられ、10個の文章で副詞として用いられている場合、単語Xは、動詞が「0.9(=90/100)」、副詞が「0.1(=10/100)」、残りの4つの品詞が「0」の確率分布となる。
以下、図1について具体的に説明する。図1では、辞書に含まれる文字列、すなわち未知語ではない場合の処理を説明した後、未知語に対する処理を説明する。
情報処理装置100は、品詞推定の対象となる文字列CS1である「注文する」を取得する。例えば、情報処理装置100は、解析対象となる文章中に含まれる文字列CS1を取得する。そして、情報処理装置100は、文字列CS1が未知語であるか否かを判定する(ステップS11)。情報処理装置100は、文字列CS1である「注文する」と、辞書情報記憶部141中の文字列とを比較し、文字列CS1が辞書情報記憶部141に含まれているかを判定する。情報処理装置100は、対象とする文字列と、辞書情報記憶部141中の文字列とを比較し、対象とする文字列が辞書情報記憶部141に含まれている場合、未知語ではないと判定する。
図1では、情報処理装置100は、結果情報RS1に示すように、文字列CS1である「注文する」の情報が辞書情報記憶部141に含まれているため、文字列CS1を未知語ではない既知の文字列(以下「既知語」ともいう)であると判定する。すなわち、情報処理装置100は、文字列CS1である「注文する」が未知語ではないと判定する。辞書情報記憶部141には、文字列CS1である「注文する」のコーパスや確率分布が記憶されているものとする。図1では、辞書情報記憶部141は、文字列CS1である「注文する」について、名詞が「0.01」、動詞が「0.95」、副詞が「0.02」、前置詞が「0」、形容詞が「0.01」、助動詞が「0」の確率分布を記憶している。そのため、情報処理装置100は、文字列CS1である「注文する」が既知語であると判定する。
情報処理装置100は、辞書情報記憶部141の情報を用いて、文字列CS1である「注文する」の品詞を推定する情報(「品詞推定情報」ともいう)を生成する(ステップS12)。情報処理装置100は、辞書情報記憶部141の情報を用いて、文字列CS1の品詞推定情報を生成する。図1では、情報処理装置100は、辞書情報記憶部141の情報を用いて、文字列CS1についての品詞の確率分布を示す品詞推定情報INF1を生成する。情報処理装置100は、辞書情報記憶部141から文字列CS1である「注文する」の情報を抽出し、品詞推定情報INF1を生成する。情報処理装置100は、名詞がスコア「0.01」、動詞がスコア「0.95」、副詞がスコア「0.02」、前置詞がスコア「0」、形容詞がスコア「0.01」、助動詞がスコア「0」の確率分布を示す品詞推定情報INF1を生成する。
このように、情報処理装置100は、品詞推定の対象となる文字列の情報が既知語である場合、辞書情報記憶部141の情報を用いて、その文字列の品詞推定情報を生成する。そして、情報処理装置100は、品詞推定の対象となる文字列の情報が既知語である場合、辞書情報記憶部141の情報を用いて生成した品詞推定情報を用いて、その文字列の品詞を推定する。例えば、情報処理装置100は、文字列の品詞を、スコアが最大の品詞であると推定してもよい。例えば、情報処理装置100は、文字列CS1である「注文する」の品詞を最大のスコア「0.95」の動詞であると推定してもよい。なお、上記の品詞推定は一例であり、品詞推定情報を用いた具体的な処理については後述する。
情報処理装置100は、品詞推定の対象となる文字列CS2である「タピる」を取得する。例えば、情報処理装置100は、解析対象となる文章中に含まれる文字列CS2を取得する。そして、情報処理装置100は、文字列CS2が未知語であるか否かを判定する(ステップS21)。情報処理装置100は、文字列CS2である「タピる」と、辞書情報記憶部141中の文字列とを比較し、文字列CS2が辞書情報記憶部141に含まれているかを判定する。情報処理装置100は、対象とする文字列と、辞書情報記憶部141中の文字列とを比較し、対象とする文字列が辞書情報記憶部141に含まれていない場合、未知語であると判定する。
図1では、情報処理装置100は、結果情報RS2に示すように、文字列CS2である「タピる」の情報が辞書情報記憶部141に含まれていないため、文字列CS2を未知語であると判定する。図1では、辞書情報記憶部141には、文字列CS2である「タピる」の情報が記憶されていないものとする。そのため、情報処理装置100は、文字列CS2である「タピる」が未知語であると判定する。
情報処理装置100は、辞書情報記憶部141の情報を用いて、文字列CS2である「タピる」の品詞を推定する情報(品詞推定情報)を生成する。図1の例では、情報処理装置100は、バイト列を入力とし、複数の品詞の各々に対応する複数のスコアを出力する品詞推定モデルM1(以下単に「モデルM1」ともいう)を用いて、文字列CS2の品詞を推定する品詞推定情報を生成する。このように、情報処理装置100は、文字列CS2に対応するバイト列をモデルM1に入力し、文字列CS2について各品詞のスコアからなる確率分布を示す品詞推定情報を生成する。以下、処理を具体的に説明する。
まず、情報処理装置100は、文字列CS2である「タピる」中の各文字を所定の文字コードに変換する(ステップS22)。情報処理装置100は、文字列CS2中の3文字「タ」、「ピ」、「る」の各々を所定の文字コードに変換する。図1では、情報処理装置100は、「タ」、「ピ」、「る」の各々を文字コード「UTF−8」に対応するバイトに変換する。この場合、情報処理装置100は、「タ」、「ピ」、「る」の各々をUTF−8に対応する3バイトに変換する。なお、各文字を変換する文字コードは、UTF−8に限らず、文字をバイト等の数値へ変換する文字コードであれば、どのような文字コードであってもよい。例えば、各文字を変換する文字コードは、UTF−16、Shift_JIS、EUC等であってもよい。なお、上記は一例であり、各文字を変換する文字コードは、上記以外の文字コードであってもよい。
情報処理装置100は、文字列CS2である「タピる」中の各文字を所定の文字コードに変換する変換処理により、文字列CS2に対応するバイト列BS2を生成する。情報処理装置100は、文字「タ」をUTF−8に対応する3バイト「0xe3」、「0x82」、「0xbf」に変換する。情報処理装置100は、文字「ピ」をUTF−8に対応する3バイト「0xe3」、「0x83」、「0x94」に変換する。情報処理装置100は、文字「る」をUTF−8に対応する3バイト「0xe3」、「0x82」、「0x8b」に変換する。これにより、情報処理装置100は、文字列CS2に対応するバイト列BS2を生成する。
そして、情報処理装置100は、バイト列BS2をモデルM1に入力する(ステップS23)。ここで、図2を用いて、モデルM1の概要について説明する。図2は、本開示の実施形態に係る品詞推定情報の生成処理の一例を示す図である。なお、図1と同様の点については同じ符号を付して説明を省略する。図2に示すように、モデルM1は、文字列CS2が変換されたバイト列BS2のようなバイト列を入力として、その入力されたバイト列に対応する文字列の品詞を推定する情報(スコア)を出力する。図2では、モデルM1は、バイト列が入力された場合、入力されたバイト列に対応する文字列に対する複数の品詞の確率分布を示す情報(スコア)を出力する。このように、モデルM1は、バイト列が入力された場合、入力されたバイト列に対応する文字列について、複数の品詞の各々に対応する複数のスコアを出力する。
図2に示す例では、モデルM1は、「Input embedding」で示す入力層と、「Intermediate representation」で示す中間層と、「Series of POS probability」で示す出力層とを有するネットワーク構成である。例えば、モデルM1は、図6に示すネットワークNW1のようなネットワーク構成であってもよい。例えば、モデルM1は、文字列が変換されたバイト列が入力層に入力された場合、入力されたバイト列に対応する文字列が各品詞である可能性(確率)を示すスコアを出力層から出力する。図2に示す例では、モデルM1は、「noun」、「verb」、「adverb」、「preposition」「adjective」、「auxiliary verb」の6個の品詞の各々のスコアを出力する。
モデルM1は、バイト列BS2の入力に応じて、出力スコアSC1に示すような各品詞のスコアを出力する。モデルM1は、バイト列BS2に対応する文字列「タピる」について、名詞のスコア「0.21」、動詞のスコア「0.86」、副詞のスコア「0.02」、前置詞のスコア「0.01」、形容詞のスコア「0.15」、助動詞のスコア「0.01」を出力する。
図1に戻って、説明を続ける。情報処理装置100は、モデルM1の出力結果を用いて、文字列CS2品詞推定情報を生成する。図1では、情報処理装置100は、モデルM1の出力結果を用いて、文字列CS2についての品詞の確率分布を示す品詞推定情報INF2を生成する。情報処理装置100は、辞書情報記憶部141から文字列CS2である「タピる」の情報を抽出し、品詞推定情報INF2を生成する。情報処理装置100は、名詞がスコア「0.21」、動詞がスコア「0.86」、副詞がスコア「0.02」、前置詞がスコア「0.01」、形容詞がスコア「0.15」、助動詞がスコア「0.01」の確率分布を示す品詞推定情報INF2を生成する。
このように、情報処理装置100は、品詞推定の対象となる文字列の情報が未知語である場合、モデルM1を用いて、その文字列の品詞推定情報を生成する。そして、情報処理装置100は、品詞推定の対象となる文字列の情報が未知語である場合、モデルM1の出力結果を用いて生成した品詞推定情報を用いて、その文字列の品詞を推定する。例えば、情報処理装置100は、文字列の品詞を、スコアが最大の品詞であると推定してもよい。例えば、情報処理装置100は、文字列CS2である「タピる」の品詞を最大のスコア「0.86」の動詞であると推定してもよい。このように、上記の図1では、品詞がわからない単語「タピる」を入力した場合を示す。この場合、未知語「タピる」は動詞であると解析されることが期待される。なお、上記の品詞推定は一例であり、品詞推定情報を用いた具体的な処理については後述する。
上述のように、情報処理装置100は、文字列が既知語と未知語とのいずれであるかに応じて、品詞の推定に用いる情報を切り替えて、文字列の品詞を推定する品詞推定情報を生成する。具体的には、情報処理装置100は、文字列が既知語である場合、辞書の情報を用いて、文字列の品詞推定情報を生成する。また、情報処理装置100は、文字列が未知語である場合、文字列を変換したバイト列と、そのバイト列を入力とするモデルとを用いて、文字列の品詞推定情報を生成する。これにより、情報処理装置100は、文字列が未知語である場合であっても、文字列の品詞を適切に推定することができる。したがって、情報処理装置100は、柔軟な文字列の品詞推定を可能にすることができる。
[1−1−1.背景及び効果等]
例えば、テキスト文字列を形態素(意味を持つ最小要素)に分割する形態素解析では、どの文字列が1形態素になるかをあらかじめ定義された辞書を用いて解析(文字列からの単語認定と品詞付与)を行う。この際、辞書に登録されていない単語(未知語)が生起した際、どのような単語を認定すればいいのかがわからなくなり、解析がストップするなどの不正な解析結果を出力してしまう場合がある。
例えば、テキスト文字列を形態素(意味を持つ最小要素)に分割する形態素解析では、どの文字列が1形態素になるかをあらかじめ定義された辞書を用いて解析(文字列からの単語認定と品詞付与)を行う。この際、辞書に登録されていない単語(未知語)が生起した際、どのような単語を認定すればいいのかがわからなくなり、解析がストップするなどの不正な解析結果を出力してしまう場合がある。
従来は、文字種の連続性に着目するルールや生起しやすい品詞を列挙するルール、文字列の先頭、末尾N文字を抽出しておくルール等のルールベースアルゴリズムで解析を行っていた。しかし、言語ごとに異なるルールを考案する、または、実装方式を変更する必要があり、実装、メンテナンスのためのコストが高いという課題がある。
一方で、情報処理装置100は、未知語候補の文字列に対して直接品詞を推定するアルゴリズムを用いて、文字列の品詞を推定する。このアルゴリズムでは、入力である単語候補(文字列)をbyte単位に分割した上で、機械学習による特徴量抽出を行う。その結果を分類アルゴリズムによって、品詞毎の生起確率へ回帰させる。その結果、情報処理装置100は、出力として、単語候補への品詞毎の確率分布を得ることができる。
これにより、情報処理装置100は、「#tion」、「pre#」、「#ly」のような先頭、接尾の文字列が持つ情報や、既存の辞書に登録済みの単語が持つ情報によって、未知の単語に対する品詞の確率分布を補完、予測することが可能となる。また、情報処理装置100は、byte単位で情報を抽出することで、日本語、中国語などのマルチバイト文字を頻繁に用いる言語であっても同じアルゴリズムで運用が可能となる。また、情報処理装置100は、既存の実装でよく用いられる「#tion」は名詞になりやすいといったヒューリスティックスに関しても、データから直接的に学習が可能であるために、各言語における同様の知識を要求することなく、適切な品詞の推定が可能となる。
また、情報処理装置100は、上述のように、文字単位での処理、図1の例ではバイト単位で処理することにより、大幅なベクトル空間サイズの減少を行うことができる。また、情報処理装置100は、分割単位の決定時に複数の未知の分割候補を仮定できるために、分割誤りを抑制することができる。
[1−1−2.モデルの生成]
ここで、図1に示すモデルM1のような品詞推定モデルの生成について説明する。情報処理装置100は、辞書情報を用いて、モデルM1のような品詞推定モデルを生成する。情報処理装置100は、日本語の辞書情報を用いて、モデルM1を生成する。例えば、情報処理装置100は、辞書情報記憶部141中の日本語の辞書情報を用いて、モデルM1を生成する。
ここで、図1に示すモデルM1のような品詞推定モデルの生成について説明する。情報処理装置100は、辞書情報を用いて、モデルM1のような品詞推定モデルを生成する。情報処理装置100は、日本語の辞書情報を用いて、モデルM1を生成する。例えば、情報処理装置100は、辞書情報記憶部141中の日本語の辞書情報を用いて、モデルM1を生成する。
情報処理装置100は、日本語の辞書情報中の既知語とその既知語の確率分布とを用いて、日本語の品詞推定モデルであるモデルM1を生成する。情報処理装置100は、既知語の確率分布を、その既知語の正解情報として用いる。この場合、情報処理装置100は、既知語に対応するバイト列が入力された場合に、その既知語の確率分布に対応する各品詞のスコアが出力されるように学習処理を行うことで、日本語に対応するモデルM1を生成する。
例えば、情報処理装置100は、既知語「注文する」の正解情報として、辞書情報記憶部141中の既知語「注文する」の確率分布を用いる。この場合、情報処理装置100は、既知語「注文する」の正解情報として、名詞がスコア「0.01」、動詞がスコア「0.95」、副詞がスコア「0.02」、前置詞がスコア「0」、形容詞がスコア「0.01」、助動詞がスコア「0」の確率分布を用いる。例えば、情報処理装置100は、既知語「注文する」に対応するバイト列が入力された場合に、既知語「注文する」の確率分布に対応する各品詞のスコアが出力されるように学習処理を行う。この場合、情報処理装置100は、名詞に対応する出力値が「0.01」、動詞に対応する出力値が「0.95」、副詞に対応する出力値が「0.02」、前置詞に対応する出力値が「0」、形容詞に対応する出力値が「0.01」、助動詞に対応する出力値が「0」になるように学習処理を行う。このように、情報処理装置100は、既知語の情報を用いて、品詞推定モデルを学習する。なお、上記は一例であり、情報処理装置100は、種々の手法によりモデルM1等の品詞推定モデルを学習してもよい。
また、情報処理装置100は、英語の辞書情報を用いて、図8及び図9に示すようなモデルM2を生成する。情報処理装置100は、英語の辞書情報中の既知語とその既知語の確率分布とを用いて、英語の品詞推定モデルであるモデルM2を生成する。情報処理装置100は、既知語の確率分布を、その既知語の正解情報として用いる。この場合、情報処理装置100は、既知語に対応するバイト列が入力された場合に、その既知語の確率分布に対応する各品詞のスコアが出力されるように学習処理を行うことで、英語に対応するモデルM2を生成する。なお、情報処理装置100は、上述した日本語、英語に限らず、スペイン語やアラビア語やロシア語等、種々の言語に対応する品詞推定モデルを生成する。
なお、品詞の分類が共通である言語(「分類共通言語」ともいう)が複数ある場合、情報処理装置100は、複数の分類共通言語に共通して対応可能な品詞推定モデル(「共通品詞推定モデル」ともいう)を生成してもよい。例えば、情報処理装置100は、言語LAと言語LBとが分類共通言語である場合、言語LAと言語LBとの両方に対応可能な共通品詞推定モデルを生成してもよい。この場合、情報処理装置100は、言語LAの辞書情報と、言語LBの辞書情報とを用いて、共通品詞推定モデルを生成する。情報処理装置100は、言語LAの未知語等の文字列に対して共通品詞推定モデルを用いて、その文字列の品詞推定情報を生成する。また、情報処理装置100は、言語LBの未知語等の文字列に対して共通品詞推定モデルを用いて、その文字列の品詞推定情報を生成する。
例えば、情報処理装置100は、日本語と英語とが分類共通言語である場合、日本語と英語との両方に対応可能な共通品詞推定モデルを生成してもよい。この場合、モデルM1とモデルM2とは同じ品詞推定モデルであってもよい。
また、情報処理装置100は、バイト列以外を入力とする品詞推定モデルを生成してもよい。例えば、情報処理装置100は、文字列の画像を入力とする品詞推定モデルを生成してもよい。この場合、情報処理装置100は、文字列の各文字の画像群を入力として、その画像群に対応する文字列の品詞推定情報を出力(生成)する品詞推定モデルを学習(生成)してもよい。この場合、情報処理装置100は、品詞の推定対象の文字列の各文字の画像群を品詞推定モデルに入力し、品詞推定情報を生成してもよい。また、例えば、情報処理装置100は、文字列を発話した音声等の時系列情報を入力とする品詞推定モデルを生成してもよい。この場合、情報処理装置100は、文字列を発話した音声等の時系列情報を入力として、その時系列情報に対応する文字列の品詞推定情報を出力(生成)する品詞推定モデルを学習(生成)してもよい。この場合、情報処理装置100は、品詞の推定対象の文字列を発話した音声等の時系列情報を品詞推定モデルに入力し、品詞推定情報を生成してもよい。
なお、情報処理装置100は、品詞推定モデルの生成を行わない場合、品詞推定モデルを生成する外部のモデル生成装置から、品詞推定モデルを取得してもよい。例えば、情報処理装置100は、品詞推定の対象となる言語(対象言語)に対応可能な品詞推定モデルを、モデル生成装置から取得してもよい。例えば、情報処理装置100は、品詞推定の対象となる言語(対象言語)に対応する品詞推定モデルをモデル生成装置に要求し、モデル生成装置から対象言語の品詞推定モデルを取得してもよい。
[1−2.実施形態に係る情報処理装置の構成]
次に、実施形態に係る情報処理を実行する情報処理装置の一例である情報処理装置100の構成について説明する。図3は、本開示の実施形態に係る情報処理装置100の構成例を示す図である。例えば、図3に示す情報処理装置100は、情報処理装置の一例である。情報処理装置100は、後述する情報処理装置としての機能を実現するコンピュータである。
次に、実施形態に係る情報処理を実行する情報処理装置の一例である情報処理装置100の構成について説明する。図3は、本開示の実施形態に係る情報処理装置100の構成例を示す図である。例えば、図3に示す情報処理装置100は、情報処理装置の一例である。情報処理装置100は、後述する情報処理装置としての機能を実現するコンピュータである。
図3に示すように、情報処理装置100は、通信部11と、入力部12と、表示部13と、記憶部14と、制御部15とを有する。図3の例では、情報処理装置100は、情報処理装置100の管理者等から各種操作を受け付ける入力部12(例えば、キーボードやマウス等)や、各種情報を表示するための表示部13(例えば、液晶ディスプレイ等)を有する。
通信部11は、例えば、NIC(Network Interface Card)や通信回路等によって実現される。通信部11は、通信網N(インターネット等のネットワーク)と有線又は無線で接続され、通信網Nを介して、他の装置等との間で情報の送受信を行う。
入力部12は、ユーザから各種操作が入力される。入力部12は、ユーザによる入力を受け付ける。入力部12は、ユーザによる学習方法の選択を受け付けてもよい。入力部12は、情報処理装置100に設けられたキーボードやマウスやタッチパネルを介してユーザからの各種操作を受け付けてもよい。
表示部13は、各種情報を表示する。表示部13は、ディスプレイ等の表示装置(表示部)であり、各種情報を表示する。表示部13は、生成部153により生成された情報を表示する。表示部13は、解析部154による解析結果の情報を表示する。
また、情報処理装置100は、表示部13に限らず、情報を出力する機能構成を有してもよい。なお、情報処理装置100は、情報を音声として出力する機能を有してもよい。例えば、情報処理装置100は、音声を出力するスピーカー等の音声出力部を有してもよい。
記憶部14は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部14は、辞書情報記憶部141と、モデル情報記憶部142と、品詞推定情報記憶部143とを有する。
図示を省略するが、辞書情報記憶部141には、辞書に関する各種情報が格納される。辞書情報記憶部141は、辞書情報を記憶する。辞書情報記憶部141は、単語に関する辞書情報を記憶する。例えば、辞書情報記憶部141は、各単語が用いられた文章等の文字情報(コーパス)や各単語の品詞の確率分布を記憶する。
辞書情報記憶部141には、言語ごとの辞書情報が記憶されてもよい。この場合、辞書情報記憶部141には、日本語用の辞書情報である日本語辞書情報や、英語用の辞書情報である英語辞書情報や、ドイツ語用の辞書情報であるドイツ語辞書情報や、中国語用の辞書情報である中国語辞書情報等、種々の言語の辞書情報が記憶されてもよい。
また、辞書情報記憶部141は、各データが学習用データであるか、評価用データであるか等を特定可能に記憶する。例えば、辞書情報記憶部141は、学習用データと評価用データとを区別可能に記憶する。辞書情報記憶部141は、各データが学習用データや評価用データであるかを識別する情報を記憶してもよい。情報処理装置100は、学習用データとして用いられる各データと正解情報とに基づいて、モデルを学習する。情報処理装置100は、評価用データとして用いられる各データと正解情報とに基づいて、モデルの精度を測定する。情報処理装置100は、評価用データを入力した場合にモデルが出力する出力結果と、正解情報とを比較した結果を収集することにより、モデルの精度を測定する。
実施形態に係るモデル情報記憶部142は、モデルに関する情報を記憶する。例えば、モデル情報記憶部142は、モデル(ネットワーク)の構造を示す情報(モデルデータ)を記憶する。図4は、本開示の実施形態に係るモデル情報記憶部の一例を示す図である。図4に、実施形態に係るモデル情報記憶部142の一例を示す。図4に示した例では、モデル情報記憶部142は、「モデルID」、「用途」、「モデルデータ」といった項目が含まれる。
「モデルID」は、モデルを識別するための識別情報を示す。「用途」は、対応するモデルの用途を示す。「モデルデータ」は、モデルのデータを示す。図4では「モデルデータ」に「MDT1」といった概念的な情報が格納される例を示したが、実際には、モデルに含まれるネットワークに関する情報や関数等、そのモデルを構成する種々の情報が含まれる。
図4に示す例では、モデルID「M1」により識別されるモデル(モデルM1)は、用途が「品詞推定」であることを示す。モデルM1は、単語の品詞推定に用いられるモデルであることを示す。また、モデルM1のモデルデータは、モデルデータMDT1であることを示す。図4では、モデルM1のみを図示するが、モデル情報記憶部142は、複数のモデルを記憶してもよい。モデル情報記憶部142は、モデルM1やモデルM2等、各言語の各々に対応する品詞推定モデルを記憶してもよい。
なお、モデル情報記憶部142は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、モデル情報記憶部142は、学習処理により学習(生成)されたモデルの情報を記憶する。モデル情報記憶部142は、学習処理により学習(生成)されたモデルM1のパラメータ情報を記憶する。
品詞推定情報記憶部143は、品詞推定に関する各種情報を記憶する。図5は、本開示の実施形態に係る品詞推定情報記憶部の一例を示す図である。例えば、品詞推定情報記憶部143は、品詞推定の対象となった未知語等の文字列やその品詞の推定結果に関する各種情報を記憶する。図5では、品詞推定の結果として、各品詞のスコアに基づく確率分布を記憶する場合を示す。実施形態に係る品詞推定情報記憶部143の一例を示す。図5の例では、辞書情報記憶部141は、「対象文字列」、「品詞ID」、「品詞」、「確率分布(スコア)」といった項目が含まれる。
「対象文字列」は、品詞推定の対象となった文字列を示す。「品詞ID」は、品詞を識別するための識別情報を示す。また、「品詞」は、品詞IDに対応する品詞を示す。「確率分布(スコア)」は、対応する品詞の確率分布(スコア)を示す。「確率分布(スコア)」の値が大きい品詞ほど、対象文字列の品詞である可能性が高いことを示す。
図5の例では、対象文字列「タピる」の品詞となり得る候補には、品詞ID「PS1」〜「PS6」等により識別される複数の品詞が含まれることを示す。品詞ID「PS1」により識別される品詞(品詞PS1)は、「noun」、すなわち名詞であることを示す。品詞ID「PS2」により識別される品詞(品詞PS2)は、「verb」、すなわち動詞であることを示す。品詞ID「PS3」により識別される品詞(品詞PS3)は、「adverb」、すなわち副詞であることを示す。品詞ID「PS4」により識別される品詞(品詞PS4)は、「preposition」、すなわち前置詞であることを示す。品詞ID「PS5」により識別される品詞(品詞PS5)は、「adjective」、すなわち形容詞であることを示す。品詞ID「PS6」により識別される品詞(品詞PS6)は、「auxiliary verb」、すなわち助動詞であることを示す。
図1の例では、対象文字列「タピる」の品詞は、名詞が「0.21」、動詞が「0.86」、副詞が「0.02」、前置詞が「0.01」、形容詞が「0.15」、助動詞が「0.01」となる確率分布であることを示す。
なお、品詞推定情報記憶部143は、上記に限らず、目的に応じて種々の情報を記憶してもよい。品詞推定情報記憶部143は、「確率分布(スコア)」の各品詞のスコアを、各データに対応する正解情報(正解ラベル)として記憶する。
図3に戻り、説明を続ける。制御部15は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、情報処理装置100内部に記憶されたプログラム(例えば、本開示に係る情報処理プログラム)がRAM(Random Access Memory)等を作業領域として実行されることにより実現される。また、制御部15は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
図3に示すように、制御部15は、取得部151と、学習部152と、生成部153と、解析部154と、送信部155とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部15の内部構成は、図3に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
取得部151は、各種情報を取得する。取得部151は、外部の情報処理装置から各種情報を取得する。取得部151は、記憶部14から各種情報を取得する。取得部151は、入力部12により受け付けられた情報を取得する。
取得部151は、記憶部14から各種情報を取得する。取得部151は、辞書情報記憶部141やモデル情報記憶部142や品詞推定情報記憶部143から各種情報を取得する。取得部151は、学習用データを取得する。取得部151は、辞書情報記憶部141から辞書情報を取得する。
取得部151は、モデルを取得してもよい。取得部151は、モデルのネットワーク構造を示す情報を取得してもよい。取得部151は、モデルを提供する外部の情報処理装置や記憶部14からモデルを取得する。例えば、取得部151は、モデルM1をモデル情報記憶部142から取得する。例えば、取得部151は、モデルM1のネットワーク構造を示す情報をモデル情報記憶部142から取得する。取得部151は、機械学習によるモデルの学習に用いる学習用データを取得する。取得部151は、辞書情報記憶部141からモデルの学習に用いる学習用データを取得する。
取得部151は、学習部152が学習した各種情報を取得する。取得部151は、生成部153が生成した各種情報を取得する。取得部151は、解析部154が解析した各種情報を取得する。
取得部151は、品詞の推定対象となる文字列を取得する。取得部151は、未知語である文字列を取得する。取得部151は、辞書情報に含まれない未知語である文字列を取得する。取得部151は、文字列に対応する言語の辞書情報に含まれず、言語での未知語である文字列を取得する。
学習部152は、学習処理を行う。学習部152は、各種学習を行う。学習部152は、取得部151により取得された情報に基づいて、各種情報を学習する。学習部152は、モデルを学習(生成)する。学習部152は、モデル等の各種情報を学習する。学習部152は、学習によりモデルを生成する。学習部152は、種々の機械学習に関する技術を用いて、モデルを学習する。例えば、学習部152は、モデル(ネットワーク)のパラメータを学習する。学習部152は、種々の機械学習に関する技術を用いて、モデルを学習する。
学習部152は、各種学習を行う。学習部152は、記憶部14に記憶された情報に基づいて、各種情報を学習する。学習部152は、辞書情報記憶部141やモデル情報記憶部142に記憶された情報に基づいて、モデルを学習する。
学習部152は、ネットワークのパラメータを学習する。例えば、学習部152は、モデルM1やモデルM2のネットワークのパラメータを学習する。学習部152は、モデルM1やモデルM2のネットワークのパラメータを学習することにより、モデルM1やモデルM2を学習する。
学習部152は、学習用バイト列と学習用バイト列に対応する正解情報との組合せである学習データを用いてモデルを学習する。学習部152は、文字列に対応する言語の学習データを用いて言語に対応するモデルを学習する。学習部152は、辞書情報記憶部141に記憶された学習用データ(教師データ)に基づいて、学習処理を行うことにより、モデルを生成する。学習部152は、辞書情報記憶部141に記憶された学習用データを用いて、学習処理を行うことにより、モデルを生成する。例えば、学習部152は、品詞推定に用いられるモデルを生成する。学習部152は、モデルM1やモデルM2のネットワークのパラメータを学習し、モデルM1やモデルM2を生成する。
学習部152による学習の手法は特に限定されないが、例えば、文字列に対応するバイト列と、その文字列の確率分布とを紐づけた学習用データを用意し、その学習用データを多層ニューラルネットワークに基づいた計算モデルに入力して学習してもよい。また、例えばCNN(Convolutional Neural Network)、3D−CNN等のDNN(Deep Neural Network)に基づく手法が用いられてもよい。学習部152は、再帰型ニューラルネットワーク(Recurrent Neural Network:RNN)やRNNを拡張したLSTM(Long Short-Term Memory units)に基づく手法を用いてもよい。
学習部152は、学習により生成したモデルをモデル情報記憶部142に格納する。学習部152は、モデルM1やモデルM2を生成する。この場合、学習部152は、生成したモデルM1やモデルM2をモデル情報記憶部142に格納する。学習部152は、学習用データとして用いられる各データと正解情報とに基づいて、モデルを学習する。
生成部153は、各種生成を行う。生成部153は、取得部151により取得された情報に基づいて、各種情報を生成する。生成部153は、学習部152により学習されたモデルに基づいて、各種情報を生成する。生成部153は、記憶部14に記憶された情報に基づいて、各種情報を生成する。生成部153は、辞書情報記憶部141やモデル情報記憶部142や品詞推定情報記憶部143に記憶された情報に基づいて、各種情報を生成する。
生成部153は、各種判定を行う。生成部153は、文字列が未知語であるか否かを判定する。生成部153は、取得部151により取得された情報に基づいて、各種判定を行う。生成部153は、学習部152により学習されたモデルに基づいて、各種判定を行う。生成部153は、記憶部14に記憶された情報に基づいて、各種判定を行う。生成部153は、辞書情報記憶部141やモデル情報記憶部142や品詞推定情報記憶部143に記憶された情報に基づいて、各種判定を行う。
生成部153は、表示部13に表示する各種情報を生成してもよい。生成部153は、表示部13に表示する文字情報やグラフといった画像情報などの各種情報を生成してもよい。この場合、生成部153は、画面に関する情報(画像)を画像に関連する種々の従来技術を適宜用いて生成する。生成部153は、画像をGUIに関する種々の従来技術を適宜用いて生成する。例えば、生成部153は、CSS、JavaScript(登録商標)、HTML、あるいは、上述した情報表示や操作受付等の情報処理を記述可能な任意の言語により画像を生成してもよい。
生成部153は、文字列が変換されたバイト列に基づいて、文字列の品詞を推定する品詞推定情報を生成する。生成部153は、文字列が複数の品詞のうちいずれの品詞であるかを推定する品詞推定情報を生成する。生成部153は、文字列の言語に対応する品詞体系に含まれる複数の品詞のうち、文字列がいずれの品詞であるかを推定する品詞推定情報を生成する。
生成部153は、文字列が複数の品詞のいずれであるかを示すスコアを含む品詞推定情報を生成する。生成部153は、複数の品詞の各々に対応する複数のスコアを含む品詞推定情報を生成する。生成部153は、文字列に対する複数の品詞の確率分布を示す品詞推定情報を生成する。
生成部153は、バイト列を入力とするモデルを用いて、文字列の品詞を推定する品詞推定情報を生成する。生成部153は、文字列が複数の品詞のいずれであるかを示すスコアを出力するモデルを用いて、文字列の品詞を推定する品詞推定情報を生成する。生成部153は、複数の品詞の各々に対応する複数のスコアを出力するモデルを用いて、文字列の品詞を推定する品詞推定情報を生成する。
生成部153は、学習用バイト列と学習用バイト列に対応する正解情報との組合せである学習データを用いて学習されたモデルを用いて、文字列の品詞を推定する品詞推定情報を生成する。生成部153は、文字列に対応する言語の学習データを用いて学習された言語に対応するモデルを用いて、文字列の品詞を推定する品詞推定情報を生成する。
生成部153は、未知語である文字列の品詞を推定する品詞推定情報を生成する。生成部153は、辞書情報に含まれない文字列の品詞を推定する品詞推定情報を生成する。生成部153は、言語での未知語である文字列の品詞を推定する品詞推定情報を生成する。生成部153は、文字列に含まれる文字の各々が複数バイトに変換されたバイト列に基づいて、文字列の品詞を推定する品詞推定情報を生成する。生成部153は、文字列が少なくとも日本語を含む言語群のいずれかである場合、文字列に含まれる文字の各々が複数バイトに変換されたバイト列に基づいて、文字列の品詞を推定する品詞推定情報を生成する。
解析部154は、解析処理を行う。解析部154は、各種情報を解析する。解析部154は、外部の情報処理装置から取得された情報に基づいて、各種情報を解析する。解析部154は、記憶部14に記憶された情報に基づいて、各種情報を解析する。解析部154は、辞書情報記憶部141やモデル情報記憶部142や品詞推定情報記憶部143に記憶された情報に基づいて、各種情報を解析する。
解析部154は、解析結果に関する情報を記憶部14に格納する。解析部154は、生成部153により生成された情報に基づいて、各種解析処理を行う。例えば、解析部154は、図13〜図17に示すような形態素解析処理を行う。
解析部154は、文章等の文字情報を、形態素解析等の自然言語処理技術を適宜用いた解析を実行する。解析部154は、文章等の文字情報に対する意味解析により、文章等の文字情報の内容を推定(特定)する。解析部154は、意味解析を適宜用いて文字情報を解析することにより、文字情報の内容を推定(特定)する。例えば、解析部154は、文字情報を構文解析等の種々の従来技術を適宜用いて解析することにより、文字情報の内容を推定する。
解析部154は、生成部153により生成された品詞推定情報を用いて、文字列が含まれる文字情報を解析する。解析部154は、文字列に対して推定される品詞と文字列との組合せを用いて、文字情報を解析する。解析部154は、品詞推定情報を用いて、文字列が含まれる文字情報に対する形態素解析を実行する。
送信部155は、各種情報を送信する。送信部155は、各種情報の提供を行う。送信部155は、外部の情報処理装置へ各種情報を提供する。送信部155は、外部の情報処理装置へ各種情報を送信する。送信部155は、記憶部14に記憶された情報を送信する。送信部155は、辞書情報記憶部141やモデル情報記憶部142や品詞推定情報記憶部143に記憶された情報を送信する。送信部155は、学習部152により学習されたモデルの情報を送信する。送信部155は、生成部153により生成された情報を送信する。送信部155は、解析部154による解析結果を送信する。
[1−2−1.モデル例]
ここで、図6を用いて、情報処理装置100が用いるモデルのネットワーク構造の一例を説明する。図6は、本開示の実施形態に係るモデルの一例を示す図である。図6に示すネットワークNW1は、入力層INLと出力層OUTLとの間に複数(多層)の中間層を含むニューラルネットワークを示す。例えば、図6に示すネットワークNW1は、モデルM1やモデルM2のネットワークの一例である。
ここで、図6を用いて、情報処理装置100が用いるモデルのネットワーク構造の一例を説明する。図6は、本開示の実施形態に係るモデルの一例を示す図である。図6に示すネットワークNW1は、入力層INLと出力層OUTLとの間に複数(多層)の中間層を含むニューラルネットワークを示す。例えば、図6に示すネットワークNW1は、モデルM1やモデルM2のネットワークの一例である。
図6に示すネットワークNW1は、モデルM1のネットワークに対応し、品詞推定に用いられるニューラルネットワーク(モデル)を示す概念的な図である。例えば、ネットワークNW1は、入力層INL側から例えば文字列に対応するバイト列が入力された場合に、出力層OUTLからそのバイト列に対応する文字列の品詞を推定する情報(スコア)を出力する。例えば、情報処理装置100は、ネットワークNW1中の入力層INLに情報を入力することにより、出力層OUTLから入力に対応する文字列の品詞を推定する情報(スコア)を出力させる。
なお、図6では、モデル(ネットワーク)の一例としてネットワークNW1を示すが、ネットワークNW1は、用途等に応じて種々の形式であってもよい。例えば、情報処理装置100は、図6に示すネットワークNW1の構造を有するモデルM1のパラメータ(重み)を学習することにより、モデルM1を学習する。なお、情報処理装置100は、モデルM2についても上記と同様に学習する。
[1−3.実施形態に係る情報処理の手順]
次に、図7を用いて、実施形態に係る情報処理の手順について説明する。図7は、本開示の実施形態に係る情報処理の手順を示すフローチャートである。
次に、図7を用いて、実施形態に係る情報処理の手順について説明する。図7は、本開示の実施形態に係る情報処理の手順を示すフローチャートである。
図7に示すように、情報処理装置100は、品詞の推定対象となる文字列を取得する(ステップS101)。例えば、情報処理装置100は、未知語に対応する文字列を取得する。情報処理装置100は、文字列が変換されたバイト列に基づいて、文字列の品詞を推定する品詞推定情報を生成する(ステップS102)。例えば、情報処理装置100は、未知語に対応する文字列について、各品詞の確率分布を示す品詞推定情報を生成する。
[1−4.品詞推定情報生成例]
図8及び図9を用いて、品詞推定情報生成例について説明する。図8及び図9は、品詞推定の一例を示す図である。
図8及び図9を用いて、品詞推定情報生成例について説明する。図8及び図9は、品詞推定の一例を示す図である。
まず、図8について説明する。図8に示す生成例EX1は、英語の単語「rarely」を対象の文字列とした場合に、情報処理装置100が品詞推定情報を生成する例を示す。図8中のモデルM2は、英語の文字列を対象とする品詞推定モデルである。モデルM2は、モデルM1と同じネットワーク構成であってもよい。また、上述したようにモデルM1とモデルM2は、同じ品詞推定モデルであってもよい。
モデルM2中の「Input embedding」は、所定の行列(図8の場合255×D行列)が設定される。モデルM2中の「Intermediate representation」は、例えばCNN(Convolutional Neural Network)や、RNN(Recurrent Neural Network)やtransfer等の各種のモデル(ネットワーク構成)であってもよい。モデルM2中の「Series of POS probability」の各要素の値は、以下の式(1)に示すような式により算出される。
すなわち、図8の場合、「noun」、「verb」、「adverb」、「preposition」「adjective」、「auxiliary verb」の6個の品詞の各々のスコアは、式(1)を基に算出される。
図8の例では、情報処理装置100は、文字列「rarely」中の各文字を所定の文字コードに変換する変換処理により、文字列「rarely」に対応するバイト列を生成する。情報処理装置100は、文字「r」をUTF−8に対応する1バイト「0x72」に変換する。情報処理装置100は、文字「a」をUTF−8に対応する1バイト「0x61」に変換する。情報処理装置100は、文字「r」をUTF−8に対応する1バイト「0x72」に変換する。情報処理装置100は、文字「e」をUTF−8に対応する1バイト「0x65」に変換する。情報処理装置100は、文字「l」をUTF−8に対応する1バイト「0x6c」に変換する。情報処理装置100は、文字「y」をUTF−8に対応する1バイト「0x79」に変換する。これにより、情報処理装置100は、文字列「rarely」に対応するバイト列を生成する。
そして、情報処理装置100は、文字列「rarely」に対応するバイト列をモデルM2に入力し、文字列「rarely」について各品詞のスコアをモデルM2に出力させる。モデルM2は、文字列「rarely」に対応するバイト列の入力に応じて、図8に示すような各品詞のスコアを出力する。モデルM1は、文字列「rarely」について、名詞のスコア「0.01」、動詞のスコア「0.16」、副詞のスコア「0.94」、前置詞のスコア「0.05」、形容詞のスコア「0.31」、助動詞のスコア「0.01」を出力する。これにより、情報処理装置100は、名詞がスコア「0.01」、動詞がスコア「0.16」、副詞がスコア「0.94」、前置詞がスコア「0.05」、形容詞がスコア「0.31」、助動詞がスコア「0.01」の確率分布を示す品詞推定情報を生成する。
次に、図9について説明する。図9に示す生成例EX2は、英語の単語「google」を対象の文字列とした場合に、情報処理装置100が品詞推定情報を生成する例を示す。図9中のモデルM2は、英語の文字列を対象とする品詞推定モデルである。
図9の例では、情報処理装置100は、文字列「google」中の各文字を所定の文字コードに変換する変換処理により、文字列「google」に対応するバイト列を生成する。情報処理装置100は、文字「g」をUTF−8に対応する1バイト「0x67」に変換する。情報処理装置100は、文字「o」をUTF−8に対応する1バイト「0x6f」に変換する。情報処理装置100は、文字「o」をUTF−8に対応する1バイト「0x6f」に変換する。情報処理装置100は、文字「g」をUTF−8に対応する1バイト「0x67」に変換する。情報処理装置100は、文字「l」をUTF−8に対応する1バイト「0x6c」に変換する。情報処理装置100は、文字「e」をUTF−8に対応する1バイト「0x65」に変換する。これにより、情報処理装置100は、文字列「google」に対応するバイト列を生成する。
そして、情報処理装置100は、文字列「google」に対応するバイト列をモデルM2に入力し、文字列「google」について各品詞のスコアをモデルM2に出力させる。モデルM2は、文字列「google」に対応するバイト列の入力に応じて、図9に示すような各品詞のスコアを出力する。モデルM1は、文字列「google」について、名詞のスコア「0.81」、動詞のスコア「0.36」、副詞のスコア「0.04」、前置詞のスコア「0.05」、形容詞のスコア「0.11」、助動詞のスコア「0.01」を出力する。これにより、情報処理装置100は、名詞がスコア「0.81」、動詞がスコア「0.36」、副詞がスコア「0.04」、前置詞がスコア「0.05」、形容詞がスコア「0.11」、助動詞がスコア「0.01」の確率分布を示す品詞推定情報を生成する。
上述のように、図8、9は動作の一例を示す。具体的には、図8、9は品詞がわからない単語rarelyとgoogleを入力した結果のイメージ図を示す。この際、それぞれの文字種構成と学習時に使った辞書内での文字種の構成とその組み合わせから、rarelyには、副詞、googleには固有名詞である確率が高く推定されることが期待される。
[1−5.処理フロー例]
ここから、図10〜図13を用いて、処理フローについて説明する。
ここから、図10〜図13を用いて、処理フローについて説明する。
[1−5−1.品詞推定のフロー例]
まず、図10を用いて、品詞推定のフローについて説明する。図10は、品詞推定のフローの一例を示す図である。具体的には、図10は、品詞の生起確率を推定するアルゴリズムのフローの一例を示す図である。
まず、図10を用いて、品詞推定のフローについて説明する。図10は、品詞推定のフローの一例を示す図である。具体的には、図10は、品詞の生起確率を推定するアルゴリズムのフローの一例を示す図である。
図10に示す処理フローPS1は、Byte単位へ分割する処理、Byte単位埋め込み層に関する処理、品詞確率出力の処理を含む。Byte単位へ分割する処理に対応するバイト単位分割では、入力テキスト(形態素候補)をbyte単位で分割する。例えば、文字「a」は「0x61」に変換され,文字「あ」は「0xe3,0x81,0x82」に変換される。
また、Byte単位埋め込み層に関する処理に対応する埋め込み層では、RNNやCNNなどのアーキテクチャを多段に重ね合わせ、byte列の情報を固定長ベクトルに埋め込む。そして、前工程で得た埋め込み表現を用いて、sigmoid関数により、ある品詞の生起確率を得る。具体的には、定義されている品詞の数だけsigmoid関数を出力層に持つ全結合unitを用意し、形態素候補の品詞毎の確率分布を得る。
例えば、Byte単位へ分割する処理は、「Input embedding」で示す入力層への入力に対応する。例えば、Byte単位埋め込み層に関する処理は、「Intermediate representation」で示す中間層に対応する。例えば、品詞確率出力の処理は、「Series of POS probability」で示す出力層に対応する。
[1−5−2.形態素解析のフロー例]
次に図11を用いて形態素解析のフローの例について説明する。図11は、形態素解析のフローの一例を示す図である。
次に図11を用いて形態素解析のフローの例について説明する。図11は、形態素解析のフローの一例を示す図である。
図11に示す形態素解析部MAは、未知語に対して上述した品詞推定モデルを用いずに、所定のルール情報(以下「未知語ルール」ともいう)を用いて処理する場合を示す。形態素解析部MAは、単語辞書を用いて辞書引きを行い、未知語ルールを用いて未知語処理を行い、文法制約を用いてラティスを構築し、経路最適化を行う。なお、図11に示す形態素解析部MAの処理は、一般的な形態素解析の処理と同様であるため詳細な説明は省略する。
[1−5−3.応用アプリケーションのフロー例]
次に、図12を用いて、応用アプリケーションのフローについて説明する。図12は、応用アプリケーションのフローの一例を示す図である。
次に、図12を用いて、応用アプリケーションのフローについて説明する。図12は、応用アプリケーションのフローの一例を示す図である。
図12に示す応用アプリAPは、例えば、NLP(自然言語処理:Natural Language Processing)アプリケーションである。例えば、情報処理装置100は、応用アプリAPに対応する機能を有してもよい。情報処理装置100の制御部130は、応用アプリAPに対応する機能を実現する実行部を有してもよい。
応用アプリAPは、形態素列を用いて以下の処理を行う。応用アプリAPは、特徴量化を行い、既知/未知の判定を行い、学習コーパスを用いて類似事例検索を行い、学習済みモデルを用いてモデルのアップデートを行い、システム出力を行う。
[1−5−4.アプリケーション統合フロー例]
次に、図13を用いて、アプリケーションの統合フローについて説明する。図13は、形態素解析を含むアプリケーション全体のフローの一例を示す図である。具体的には、図13は、未知語解析を形態素解析ツールに組み込んだ場合の全体フロー図を示す。なお、図13において、図11や図12と同様の点については適宜説明を省略する。
次に、図13を用いて、アプリケーションの統合フローについて説明する。図13は、形態素解析を含むアプリケーション全体のフローの一例を示す図である。具体的には、図13は、未知語解析を形態素解析ツールに組み込んだ場合の全体フロー図を示す。なお、図13において、図11や図12と同様の点については適宜説明を省略する。
例えば、情報処理装置100は、図13中の全体フローFA1を実行する機能を有してもよい。情報処理装置100の制御部130は、図13中の全体フローFA1を実行する機能を有してもよい。情報処理装置100の解析部134は、図13中の形態素解析部MAを実行する機能を有してもよい。情報処理装置100の実行部は、図13中の応用アプリAPを実行する機能を有してもよい。
図13中の全体フローFA1は、図13中の形態素解析部MAと図13中の応用アプリAPとを一連の処理として実行する処理フローである。図13中の形態素解析部MAは、未知語に対する処理の点で、図11中の形態素解析部MAと相違する。図13中の形態素解析部MAは、図11中の形態素解析部MAのようなルールベースの処理ではなく、モデルM1やモデルM2のような品詞推定モデルを用いた処理である。
図13中の全体フローFA1に示すように、図13中の形態素解析部MAは、未知語に対して図10に示すような品詞推定の処理を実行することで、未知語に対する処理(「未知語解析」ともいう)を実行する。
例えば、応用アプリAPが行う処理には、テキストの分類タスクがある。例えば、テキストの分類タスクとは、入力テキストに対して、ある特定のラベルを与えるタスクである。ここで、正解のラベル列が既に判明しているテキストに対して、未知語が生起している入力文が持つ意味を考える。文のような単位では、あらゆる単語の組み合わせに対して、ラベルを用意しておくことは困難である。そのため、入力文との完全マッチで正解付き事例が見つかる可能性は低い。
一方で、単語単位で似た出現分布を持つ別の単語を探すために、単語の分散表現同士の距離を測る方法が存在する。さらに、分散表現を獲得する際は、文字列のみを用いることが一般的であるが、そこに品詞を付与し、同時に分散表現を得ることで、品詞の違いを考慮した距離を定義することが可能である。この技術と未知語解析結果を組み合わせ、形態素解析辞書、トレーニングデータ共に未出現でありながら、テストデータで出現した単語に品詞を割り当て、その単語と似たベクトルを持つ単語を大規模なテキストデータを解析したコーパスから探索する。探索結果として見つかった候補(未知語言いかえ候補)が含まれるトレーニング事例から、入力事例と意味が似ている文を取り出すことで、未知語の意味と品詞を同時に推定することができ、ユーザ発話への再現率が向上する。
また、未知語解析を行うことで、上述のような応用アプリAPの動作頑健性を向上させることが可能である。このように、情報処理装置100は、形態素解析ツールに未知語解析のアルゴリズムを適応することで、言語への知識を記述したヒューリスティックスをベースにしたルールの除外することができる。つまり、情報処理装置100は、形態素解析ツールに未知語解析のアルゴリズムを適応することで、言語拡張の容易さを向上させることができる。
以下、図13に示す全体フローFA1に対応する動作例を説明する。ここでは、SLU(Spoken Language Understanding)を一例として説明する。具体的には、電子商取引、いわゆる通販サイトを介した商品購入(ネットショッピング)にSLUを適用した場合の動作例を説明する。また、以下の例では、スマートスピーカを利用してユーザの発話により処理を行う場合を示す。この場合、情報処理装置100は、スマートスピーカであってもよい。
まず、ユーザは買い物をするために通販サイトを閲覧し、スマートスピーカで注文を行う。ユーザは「今日発売したXXXカートを注文したい。」と発話する。なお、「XXX」は人気キャラクター名であるものとする。
スマートスピーカの内部サービスでは、「BUY_BOOKS」、「BUY_GAMES」のように、何かを購入したがっているユーザがいる場合に、その商品カテゴリが判明すればタスク実行可能な状態であるものとする。例えば、「BUY_BOOKS」や「BUY_GAMES」は、発話するユーザの意図を示す情報(ラベル)である。また、このサービス実現のために、情報処理装置100は、“「XXXワールドを注文したい」->BUY_GAMES”、“「今週の週刊誌WM」->BUY_BOOKS”のように、各カテゴリに属する発話事例をトレーニングデータとして大量に収集しているとする。
そして、新しく出現した単語、すなわち未知語「XXXカート」は既存の学習コーパスに事例が存在しないため、ユーザが何を欲しがっているかはわからない。そのため、情報処理装置100は、XXXカートは未知語解析の結果によると固有名詞として出現しているようだと推定する。
情報処理装置100は、固有名詞“スーパーXXX”と似たベクトルを持つ単語を大規模コーパスから検索する。例えば、情報処理装置100は、“スーパーXXX”、“XXXワールド”を検出する。情報処理装置100は、検出結果を含む事例と、未知語「XXXカート」を含む「今日発売したXXXカートを注文したい。」とを比較する。
過去のラベル付きデータ“XXXワールドを注文したい”と“(今日発売した)XXXカートを注文したい”は距離が近い。そのため、情報処理装置100は、入力発話「今日発売したXXXカートを注文したい。」がBUY_GAMESに関連する発話であると推定する。
情報処理装置100は、上述のように単語辞書に記載されていない文字列について、品詞毎の確率分布を推定可能となる。また、情報処理装置100は、未登録語の品詞がわかることで、トレーニングセットにおける類似事例を条件付きで探索可能となる。
[1−6.形態素解析]
次に、図14〜図17を用いて、形態素解析について説明する。
次に、図14〜図17を用いて、形態素解析について説明する。
まず、図14を用いて、形態素解析の概要について簡単に記載する。図14は、形態素解析の処理概要を示す図である。情報処理装置100は、以下に示すような形態素解析の処理を実行する。なお、以下の説明では、従来の形態素解析の処理と同様の点については、詳細な説明を適宜省略する。
情報処理装置100は、形態素解析の処理により、入力テキスト(文字情報)を、品詞タグが付与された形態素(単語)の集合に変換する。例えば、情報処理装置100は、入力された文章(文字情報)に対して、辞書中に含まれている単語全てを検索し、抽出する。そして、情報処理装置100は、単語の候補を列挙したグラフ構造であるラティス構造(単に「ラティス」ともいう)を生成する。このように、情報処理装置100は、形態素解析の処理において、グラフの一種であるラティスを生成する。図14中のラティスLT1は、「東京都出身」という文字情報を対象とした場合に生成されるラティスを示す。図14中のBOS(Beginning Of Sentence)は、文頭を示すノードであり、EOS(End Of Sentence)は、文末を示すノードである。例えば、ラティスの文頭ノード(図14中の「BOS」)から文末ノード(図14中の「EOS」)までのパスが、形態素解析結果になる。
このように、情報処理装置100は、形態素解析の対象となる文字情報中の部分一致する全文字列(単語)を辞書から抽出し、単語の候補を列挙したラティス(単語ラティス)を生成する。例えば、情報処理装置100は、事前に生成可能な単語列(ラティス)を、辞書を用いて網羅的に列挙する。そして、情報処理装置100は、各単語間の連結部において両単語が連結して出現する確率に相当するスコアを付与する。情報処理装置100は、単語同士の多くの組み合わせの中から、文章として最も確からしい(尤もらしい)と推定される単語の並びを選択する。
[1−6−1.未知語を含む形態素解析の事例その1]
次に、図15〜図17を用いて、形態素解析の処理の例を示す。図15〜図17は、未知語を含む形態素解析の処理の一例を示す図である。まず、図15について説明する。図15は、未知語を含む形態素解析の事例その1である。
次に、図15〜図17を用いて、形態素解析の処理の例を示す。図15〜図17は、未知語を含む形態素解析の処理の一例を示す図である。まず、図15について説明する。図15は、未知語を含む形態素解析の事例その1である。
図15中の事例ME1に示すように、入力文字列「東京都知事」が取得された場合、システム辞書を用いて、ラティスを生成し、入力文字列「東京都知事」を形態素に分割した情報が出力される。図15の例では、入力文字列「東京都知事」を、「東京」、「都」、「知事」の3つの形態素(文字列)に分割した結果が出力される。
例えば、“東京都知事”という文字列を1トークン(1つの文字列)として処理したい場合、図15の場合、辞書には含まれない単語は、解析候補として扱われないために、解析不可能となる。なお、解析にはラティス(図中BOSから始まり、EOSで終わるグラフ)が用いられる。ここで、ラティス中のノードには、文字列と品詞と生起コストの3つの情報が対応付けられている。詳細な説明は省略するが、品詞と品詞のつながりのよさを示す接続コストが別途付与され、接続コストと生起コストとによって、経路上の最短パスが求められ、解析結果として出力される。
[1−6−2.未知語を含む形態素解析の事例その2]
次に、図16について説明する。図16は、未知語を含む形態素解析の事例その2である。なお、図15と同様の点については説明を省略する。
次に、図16について説明する。図16は、未知語を含む形態素解析の事例その2である。なお、図15と同様の点については説明を省略する。
図16の例では、情報処理装置100は、入力文字列「東京都知事」から“東京都”をキーワード抽出し、アプリ辞書へ“東京都”を未知語として単語登録する。例えば、情報処理装置100は、システム辞書やアプリ辞書の情報を記憶部120に記憶してもよい。
そして、情報処理装置100は、未知語「東京都」の生起コストを設定する。情報処理装置100は、種々の情報を適宜用いて未知語「東京都」の生起コストを設定する。例えば、情報処理装置100は、情報処理装置100の管理者等が指定した値を、未知語「東京都」の生起コストに設定してもよい。情報処理装置100の管理者等は、システム辞書を参照して未知語「東京都」の生起コストを指定したり、未知語「東京都」の生起コストを小さい値に設定したりする。また、情報処理装置100は、自動で未知語「東京都」の生起コストを設定してもよい。例えば、情報処理装置100は、未知語「東京都」を含むパス(経路)が選択されやすくなるように、未知語「東京都」の生起コストを設定してもよい。
図16中の事例ME2に示すように、情報処理装置100は、入力文字列「東京都知事」を取得した場合、システム辞書やアプリ辞書を用いて、ラティスを生成し、入力文字列「東京都知事」を形態素に分割した情報を出力(生成)する。図16の例では、BOSからEOSまでの各パス(経路)のうち、「東京都」、「知事」を通るパス(Path)がその他のパス(Path)よりもコストが小さいラティスが生成されるものとする。情報処理装置100は、入力文字列「東京都知事」を、「東京都」、「知事」の2つの形態素(文字列)に分割した結果を生成する。例えば、情報処理装置100は、システム辞書やアプリ辞書の情報を記憶部120から取得してもよいし、システム辞書やアプリ辞書の情報を提供する外部の装置から取得してもよい。
[1−6−3.未知語を含む形態素解析の事例その3]
次に、図17について説明する。図17は、未知語を含む形態素解析の事例その3である。なお、図15及び図16と同様の点については説明を省略する。
次に、図17について説明する。図17は、未知語を含む形態素解析の事例その3である。なお、図15及び図16と同様の点については説明を省略する。
図17の例では、情報処理装置100は、入力文字列「東京都知事」から“東京都知事”をキーワード抽出し、アプリ辞書へ“東京都知事”を未知語として単語登録する。
そして、情報処理装置100は、未知語「東京都知事」の生起コストを設定する。情報処理装置100は、種々の情報を適宜用いて未知語「東京都知事」の生起コストを設定する。例えば、情報処理装置100は、情報処理装置100の管理者等が指定した値を、未知語「東京都知事」の生起コストに設定してもよい。例えば、情報処理装置100は、未知語「東京都知事」を含むパス(経路)が選択されやすくなるように、未知語「東京都知事」の生起コストを設定してもよい。
図17中の事例ME3に示すように、情報処理装置100は、入力文字列「東京都知事」を取得した場合、システム辞書やアプリ辞書を用いて、ラティスを生成し、入力文字列「東京都知事」を形態素に分割した情報を出力(生成)する。図17の例では、BOSからEOSまでの各パス(経路)のうち、「東京都」、「知事」を通るパス(Path)がその他のパス(Path)よりもコストが小さいラティスが生成されるものとする。すなわち、図17の例では、「東京都」、「知事」を通るパス(Path)のコストが「東京都知事」を通るパス(Path)のコストよりも小さい。情報処理装置100は、入力文字列「東京都知事」を、「東京都」、「知事」の2つの形態素(文字列)に分割した結果を生成する。なお、情報処理装置100の管理者等は、「東京都知事」の1つの形態素(文字列)に分割した結果を生成したい場合、未知語「東京都知事」の生起コストをさらに小さく設定してもよい。
ここで、従来手法では、未知語処理として“東京都知事”を解析結果の候補として抽出できたとしても、ヒューリスティックなルールを使わない場合、品詞が何かがわからずに結果として解析することができない。一方で、情報処理装置100は、品詞推定情報を生成することによって、“東京都知事:名詞”のようなノードをラティスに追加することができる。情報処理装置100は、未知語に品詞の情報を付加した後、文字列と品詞を特徴量として、どの程度1トークンとしてでやすいかを示すスコアを付与することで、経路の最適化を実行することができる。
[2.その他の実施形態]
上述した各実施形態に係る処理は、上記各実施形態以外にも種々の異なる形態(変形例)にて実施されてよい。例えばシステム構成は、上述した例に限らず、種々の態様であってもよい。この点について以下説明する。なお、以下では、実施形態に係る情報処理装置100と同様の点については、適宜説明を省略する。
上述した各実施形態に係る処理は、上記各実施形態以外にも種々の異なる形態(変形例)にて実施されてよい。例えばシステム構成は、上述した例に限らず、種々の態様であってもよい。この点について以下説明する。なお、以下では、実施形態に係る情報処理装置100と同様の点については、適宜説明を省略する。
[2−1.変形例]
例えば、上述した例では、ユーザが利用する端末装置である情報処理装置100が品詞推定を行う例を示したが、品詞推定を行う情報処理装置と、ユーザが利用する端末装置とは別体であってもよい。この点について、図18及び図19を用いて説明する。図18は、本開示の変形例に係る情報処理システムの構成例を示す図である。図19は、本開示の変形例に係る情報処理装置の構成例を示す図である。
例えば、上述した例では、ユーザが利用する端末装置である情報処理装置100が品詞推定を行う例を示したが、品詞推定を行う情報処理装置と、ユーザが利用する端末装置とは別体であってもよい。この点について、図18及び図19を用いて説明する。図18は、本開示の変形例に係る情報処理システムの構成例を示す図である。図19は、本開示の変形例に係る情報処理装置の構成例を示す図である。
図18に示すように、情報処理システム1には、端末装置10と、情報処理装置100Aとが含まれる。端末装置10及び情報処理装置100Aは通信網Nを介して、有線又は無線により通信可能に接続される。なお、図18に示した情報処理システム1には、複数台の端末装置10や、複数台の情報処理装置100Aが含まれてもよい。この場合、情報処理装置100Aは、通信網Nを介して端末装置10と通信し、端末装置10への情報の提供やユーザが端末装置10を介して入力した文字情報を対象として、品詞推定や形態素解析等の処理を行なったりしてもよい。また、情報処理装置100Aは、ユーザが端末装置10を介して指定したパラメータ等の情報を基に、モデルの学習を行なったりしてもよい。
端末装置10は、ユーザによって利用される情報処理装置である。端末装置10は、例えば、ノート型PC(Personal Computer)や、デスクトップPCや、スマートフォンや、タブレット型端末や、携帯電話機や、PDA(Personal Digital Assistant)等により実現される。なお、端末装置10は、情報処理装置100Aが提供する情報を表示可能であればどのような端末装置であってもよい。端末装置10は、クライアント端末である。
また、端末装置10は、ユーザによる操作を受け付ける。図18に示す例において、端末装置10は、情報処理装置100Aが提供する情報を画面に表示する。また、端末装置10は、ユーザによる操作を示す情報等の情報を情報処理装置100Aへ送信する。例えば、端末装置10は、品詞の推定対象となる文字列を情報処理装置100Aへ送信する。端末装置10は、未知語である文字列を情報処理装置100Aへ送信する。端末装置10は、辞書情報に含まれない未知語である文字列を情報処理装置100Aへ送信する。端末装置10は、文字列に対応する言語の辞書情報に含まれず、言語での未知語である文字列を情報処理装置100Aへ送信する。端末装置10は、解析の対象となる文字情報を情報処理装置100Aへ送信する。端末装置10は、品詞の推定対象となる文字列を含む文字情報を情報処理装置100Aへ送信する。
端末装置10は、情報処理装置100Aから受信した情報を表示する。端末装置10は、情報処理装置100Aから受信した品詞推定の結果を表示する。端末装置10は、情報処理装置100Aから受信した解析結果を表示する。
情報処理装置100Aは、端末装置10に情報を提供したり、端末装置10から情報を取得したりする点で情報処理装置100と相違する以外は、情報処理装置100と同様の情報処理を実現する。情報処理装置100Aは、クライアント端末である端末装置10にサービスを提供するサーバである。例えば、情報処理装置100Aは、端末装置10から取得した文字情報を基に、品詞推定や形態素解析の処理を実行し、その実行結果を端末装置10へ送信する。
図19に示すように、情報処理装置100Aは、通信部11と、記憶部14と、制御部15Aとを有する。通信部11は、通信網N(インターネット等)と有線又は無線で接続され、通信網Nを介して、端末装置10との間で情報の送受信を行う。この場合、情報処理装置100Aは、情報処理装置100のような情報を表示する機能を有しなくてもよい。なお、情報処理装置100Aは、情報処理装置100Aの管理者等が利用する入力部(例えば、キーボードやマウス等)や表示部(例えば、液晶ディスプレイ等)を有してもよい。
制御部15Aは、例えば、CPUやMPU等によって、情報処理装置100A内部に記憶されたプログラム(例えば、本開示に係る情報処理プログラム)がRAM等を作業領域として実行されることにより実現される。また、制御部15Aは、例えば、ASICやFPGA等の集積回路により実現されてもよい。
図19に示すように、制御部15Aは、取得部151Aと、学習部152と、生成部153と、解析部154と、送信部155Aとを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部15Aの内部構成は、図19に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
取得部151Aは、取得部151と同様に各種情報を取得する。取得部151Aは、端末装置10から各種情報を取得する。取得部151Aは、端末装置10からユーザの操作情報を取得する。取得部151Aは、記憶部14から各種情報を取得する。
送信部155Aは、送信部155と同様に各種情報の提供を行う。送信部155Aは、端末装置10に各種情報を提供する。送信部155Aは、端末装置10へ各種情報を送信する。送信部155Aは、生成部153により生成された情報を端末装置10に提供する。送信部155Aは、解析部154による解析結果を端末装置10に提供する。送信部155Aは、端末装置10に表示させる情報を端末装置10に送信する。送信部155Aは、生成部153による品詞推定の結果や、解析部154による形態素解析の結果を端末装置10へ送信する。
[2−2.その他の構成例]
また、上述した各実施形態や変形例に係る処理は、上記実施形態や変形例以外にも種々の異なる形態(変形例)にて実施されてよい。例えば、モデルを学習する装置(学習装置)と、モデルを用いて品詞を推定する装置(推定装置)と、形態素解析等の解析処理を実行する装置(解析装置)とは別体であってもよい。この場合、情報処理システムは、学習装置と、品詞推定を行う情報処理装置である推定装置と、解析装置とを含んでもよい。なお、上記は一例であり、情報処理システムは種々の構成により実現されてもよい。
また、上述した各実施形態や変形例に係る処理は、上記実施形態や変形例以外にも種々の異なる形態(変形例)にて実施されてよい。例えば、モデルを学習する装置(学習装置)と、モデルを用いて品詞を推定する装置(推定装置)と、形態素解析等の解析処理を実行する装置(解析装置)とは別体であってもよい。この場合、情報処理システムは、学習装置と、品詞推定を行う情報処理装置である推定装置と、解析装置とを含んでもよい。なお、上記は一例であり、情報処理システムは種々の構成により実現されてもよい。
[2−3.その他]
また、上記各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、上記各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
また、上述してきた各実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
また、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。
[3.本開示に係る効果]
上述のように、本開示に係る情報処理装置(実施形態では情報処理装置100、100A)は、取得部(実施形態では取得部151、151A)と、生成部(実施形態では生成部153)とを備える。取得部は、品詞の推定対象となる文字列を取得する。生成部は、文字列が変換されたバイト列に基づいて、文字列の品詞を推定する品詞推定情報を生成する。
上述のように、本開示に係る情報処理装置(実施形態では情報処理装置100、100A)は、取得部(実施形態では取得部151、151A)と、生成部(実施形態では生成部153)とを備える。取得部は、品詞の推定対象となる文字列を取得する。生成部は、文字列が変換されたバイト列に基づいて、文字列の品詞を推定する品詞推定情報を生成する。
これにより、本開示に係る情報処理装置は、品詞の推定対象となる文字列が変換されたバイト列に基づいて、文字列の品詞を推定する品詞推定情報を生成することで、文字列をバイトという別の情報に変換したうえでその文字列の品詞を推定することができる。また、情報処理装置は、文字列をバイト列に変換することで、どの言語であってもバイト列として品詞推定の処理を行うことができるため、言語に依存しない品詞推定が可能となる。したがって、情報処理装置は、柔軟な文字列の品詞推定を可能にすることができる。
また、生成部は、文字列が複数の品詞のうちいずれの品詞であるかを推定する品詞推定情報を生成する。これにより、情報処理装置は、文字列が複数の品詞のうちいずれの品詞であるかを推定することができる。
また、生成部は、文字列の言語に対応する品詞体系に含まれる複数の品詞のうち、文字列がいずれの品詞であるかを推定する品詞推定情報を生成する。これにより、情報処理装置は、文字列の言語に対応する品詞体系の中で、文字列が複数の品詞のうちいずれの品詞であるかを推定することができる。
また、生成部は、文字列が複数の品詞のいずれであるかを示すスコアを含む品詞推定情報を生成する。これにより、情報処理装置は、文字列が複数の品詞のいずれであるかを示すスコアにより、柔軟な文字列の品詞推定を可能にすることができる。
また、生成部は、複数の品詞の各々に対応する複数のスコアを含む品詞推定情報を生成する。これにより、情報処理装置は、複数の品詞の各々に対応する複数のスコアにより、柔軟な文字列の品詞推定を可能にすることができる。
また、生成部は、文字列に対する複数の品詞の確率分布を示す品詞推定情報を生成する。これにより、情報処理装置は、文字列に対する複数の品詞の確率分布により、柔軟な文字列の品詞推定を可能にすることができる。
また、生成部は、バイト列を入力とするモデルを用いて、文字列の品詞を推定する品詞推定情報を生成する。これにより、情報処理装置は、バイト列を入力とするモデルを用いることで、柔軟な文字列の品詞推定を可能にすることができる。また、情報処理装置は、バイト列を入力とするモデルを用いることで、どの言語であってもバイト列として品詞推定の処理を行うことができるため、言語に依存しない品詞推定が可能となる。
また、生成部は、文字列が複数の品詞のいずれであるかを示すスコアを出力するモデルを用いて、文字列の品詞を推定する品詞推定情報を生成する。これにより、情報処理装置は、モデルが出力し、文字列が複数の品詞のいずれであるかを示すスコアにより、柔軟な文字列の品詞推定を可能にすることができる。
また、生成部は、複数の品詞の各々に対応する複数のスコアを出力するモデルを用いて、文字列の品詞を推定する品詞推定情報を生成する。これにより、情報処理装置は、モデルが出力し、複数の品詞の各々に対応する複数のスコアにより、柔軟な文字列の品詞推定を可能にすることができる。
また、生成部は、学習用バイト列と学習用バイト列に対応する正解情報との組合せである学習データを用いて学習されたモデルを用いて、文字列の品詞を推定する品詞推定情報を生成する。これにより、情報処理装置は、学習データを用いて学習されたモデルを用いることで、柔軟な文字列の品詞推定を可能にすることができる。
また、生成部は、文字列に対応する言語の学習データを用いて学習された言語に対応するモデルを用いて、文字列の品詞を推定する品詞推定情報を生成する。これにより、情報処理装置は、文字列に対応する学習データを用いて学習されたモデルを用いることで、柔軟な文字列の品詞推定を可能にすることができる。
また、取得部は、未知語である文字列を取得する。生成部は、未知語である文字列の品詞を推定する品詞推定情報を生成する。これにより、情報処理装置は、推定対象となる文字列が未知語である場合であっても、柔軟な文字列の品詞推定を可能にすることができる。
また、取得部は、辞書情報に含まれない未知語である文字列を取得する。生成部は、辞書情報に含まれない文字列の品詞を推定する品詞推定情報を生成する。これにより、情報処理装置は、推定対象となる文字列が辞書情報に含まれない単語(未知語)である場合であっても、柔軟な文字列の品詞推定を可能にすることができる。
また、取得部は、文字列に対応する言語の辞書情報に含まれず、言語での未知語である文字列を取得する。生成部は、言語での未知語である文字列の品詞を推定する品詞推定情報を生成する。これにより、情報処理装置は、推定対象となる文字列が、文字列に対応する言語の辞書情報に含まれない単語(未知語)である場合であっても、柔軟な文字列の品詞推定を可能にすることができる。
また、生成部は、文字列に含まれる文字の各々が複数バイトに変換されたバイト列に基づいて、文字列の品詞を推定する品詞推定情報を生成する。これにより、情報処理装置は、文字列に含まれる文字の各々が複数バイトに変換されたバイト列に基づいて、文字列の品詞を推定する品詞推定情報を生成することで、マルチバイトにも対応し、柔軟な文字列の品詞推定を可能にすることができる。
また、生成部は、文字列が少なくとも日本語を含む言語群のいずれかである場合、文字列に含まれる文字の各々が複数バイトに変換されたバイト列に基づいて、文字列の品詞を推定する品詞推定情報を生成する。これにより、情報処理装置は、日本語等のように1文字が複数バイトに変換され得る言語が対象となる場合であっても、柔軟な文字列の品詞推定を可能にすることができる。
[4.ハードウェア構成]
上述してきた各実施形態に係る情報処理装置100、100A等の情報機器は、例えば図20に示すような構成のコンピュータ1000によって実現される。図20は、情報処理装置100、100A等の情報処理装置の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。以下、実施形態に係る情報処理装置100を例に挙げて説明する。コンピュータ1000は、CPU1100、RAM1200、ROM(Read Only Memory)1300、HDD(Hard Disk Drive)1400、通信インターフェイス1500、及び入出力インターフェイス1600を有する。コンピュータ1000の各部は、バス1050によって接続される。
上述してきた各実施形態に係る情報処理装置100、100A等の情報機器は、例えば図20に示すような構成のコンピュータ1000によって実現される。図20は、情報処理装置100、100A等の情報処理装置の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。以下、実施形態に係る情報処理装置100を例に挙げて説明する。コンピュータ1000は、CPU1100、RAM1200、ROM(Read Only Memory)1300、HDD(Hard Disk Drive)1400、通信インターフェイス1500、及び入出力インターフェイス1600を有する。コンピュータ1000の各部は、バス1050によって接続される。
CPU1100は、ROM1300又はHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、CPU1100は、ROM1300又はHDD1400に格納されたプログラムをRAM1200に展開し、各種プログラムに対応した処理を実行する。
ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるBIOS(Basic Input Output System)等のブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、HDD1400は、プログラムデータ1450の一例である本開示に係る情報処理プログラムを記録する記録媒体である。
通信インターフェイス1500は、コンピュータ1000が外部ネットワーク1550(例えばインターネット)と接続するためのインターフェイスである。例えば、CPU1100は、通信インターフェイス1500を介して、他の機器からデータを受信したり、CPU1100が生成したデータを他の機器へ送信したりする。
入出力インターフェイス1600は、入出力デバイス1650とコンピュータ1000とを接続するためのインターフェイスである。例えば、CPU1100は、入出力インターフェイス1600を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、CPU1100は、入出力インターフェイス1600を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス1600は、所定の記録媒体(メディア)に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
例えば、コンピュータ1000が実施形態に係る情報処理装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされた情報処理プログラムを実行することにより、制御部15等の機能を実現する。また、HDD1400には、本開示に係る情報処理プログラムや、記憶部14内のデータが格納される。なお、CPU1100は、プログラムデータ1450をHDD1400から読み取って実行するが、他の例として、外部ネットワーク1550を介して、他の装置からこれらのプログラムを取得してもよい。
なお、本技術は以下のような構成も取ることができる。
(1)
品詞の推定対象となる文字列を取得する取得部と、
前記文字列が変換されたバイト列に基づいて、前記文字列の品詞を推定する品詞推定情報を生成する生成部と、
を備える情報処理装置。
(2)
前記生成部は、
前記文字列が複数の品詞のうちいずれの品詞であるかを推定する前記品詞推定情報を生成する、
(1)に記載の情報処理装置。
(3)
前記生成部は、
前記文字列の言語に対応する品詞体系に含まれる複数の品詞のうち、前記文字列がいずれの品詞であるかを推定する前記品詞推定情報を生成する、
(2)に記載の情報処理装置。
(4)
前記生成部は、
前記文字列が複数の品詞のいずれであるかを示すスコアを含む前記品詞推定情報を生成する、
(2)または(3)に記載の情報処理装置。
(5)
前記生成部は、
複数の品詞の各々に対応する複数のスコアを含む前記品詞推定情報を生成する、
(4)に記載の情報処理装置。
(6)
前記生成部は、
前記文字列に対する複数の品詞の確率分布を示す前記品詞推定情報を生成する、
(2)〜(5)のいずれか1項に記載の情報処理装置。
(7)
前記生成部は、
前記バイト列を入力とするモデルを用いて、前記文字列の品詞を推定する品詞推定情報を生成する、
(1)〜(6)のいずれか1項に記載の情報処理装置。
(8)
前記生成部は、
前記文字列が複数の品詞のいずれであるかを示すスコアを出力する前記モデルを用いて、前記文字列の品詞を推定する品詞推定情報を生成する、
(7)に記載の情報処理装置。
(9)
前記生成部は、
複数の品詞の各々に対応する複数のスコアを出力する前記モデルを用いて、前記文字列の品詞を推定する品詞推定情報を生成する、
(7)または(8)に記載の情報処理装置。
(10)
前記生成部は、
学習用バイト列と前記学習用バイト列に対応する正解情報との組合せである学習データを用いて学習された前記モデルを用いて、前記文字列の品詞を推定する品詞推定情報を生成する、
(7)〜(9)のいずれか1項に記載の情報処理装置。
(11)
前記生成部は、
前記文字列に対応する言語の前記学習データを用いて学習された前記言語に対応する前記モデルを用いて、前記文字列の品詞を推定する品詞推定情報を生成する、
(10)に記載の情報処理装置。
(12)
前記取得部は、
未知語である前記文字列を取得し、
前記生成部は、
前記未知語である前記文字列の品詞を推定する品詞推定情報を生成する、
(1)〜(11)のいずれか1項に記載の情報処理装置。
(13)
前記取得部は、
辞書情報に含まれない前記未知語である前記文字列を取得し、
前記生成部は、
前記辞書情報に含まれない前記文字列の品詞を推定する品詞推定情報を生成する、
(12)に記載の情報処理装置。
(14)
前記取得部は、
前記文字列に対応する言語の前記辞書情報に含まれず、前記言語での前記未知語である前記文字列を取得し、
前記生成部は、
前記言語での前記未知語である前記文字列の品詞を推定する品詞推定情報を生成する、
(13)に記載の情報処理装置。
(15)
前記生成部は、
前記文字列に含まれる文字の各々が複数バイトに変換された前記バイト列に基づいて、前記文字列の品詞を推定する品詞推定情報を生成する、
(1)〜(14)のいずれか1項に記載の情報処理装置。
(16)
前記生成部は、
前記文字列が少なくとも日本語を含む言語群のいずれかである場合、前記文字列に含まれる文字の各々が複数バイトに変換された前記バイト列に基づいて、前記文字列の品詞を推定する品詞推定情報を生成する、
(15)に記載の情報処理装置。
(17)
品詞の推定対象となる文字列を取得し、
前記文字列が変換されたバイト列に基づいて、前記文字列の品詞を推定する品詞推定情報を生成する、
処理を実行する情報処理方法。
(1)
品詞の推定対象となる文字列を取得する取得部と、
前記文字列が変換されたバイト列に基づいて、前記文字列の品詞を推定する品詞推定情報を生成する生成部と、
を備える情報処理装置。
(2)
前記生成部は、
前記文字列が複数の品詞のうちいずれの品詞であるかを推定する前記品詞推定情報を生成する、
(1)に記載の情報処理装置。
(3)
前記生成部は、
前記文字列の言語に対応する品詞体系に含まれる複数の品詞のうち、前記文字列がいずれの品詞であるかを推定する前記品詞推定情報を生成する、
(2)に記載の情報処理装置。
(4)
前記生成部は、
前記文字列が複数の品詞のいずれであるかを示すスコアを含む前記品詞推定情報を生成する、
(2)または(3)に記載の情報処理装置。
(5)
前記生成部は、
複数の品詞の各々に対応する複数のスコアを含む前記品詞推定情報を生成する、
(4)に記載の情報処理装置。
(6)
前記生成部は、
前記文字列に対する複数の品詞の確率分布を示す前記品詞推定情報を生成する、
(2)〜(5)のいずれか1項に記載の情報処理装置。
(7)
前記生成部は、
前記バイト列を入力とするモデルを用いて、前記文字列の品詞を推定する品詞推定情報を生成する、
(1)〜(6)のいずれか1項に記載の情報処理装置。
(8)
前記生成部は、
前記文字列が複数の品詞のいずれであるかを示すスコアを出力する前記モデルを用いて、前記文字列の品詞を推定する品詞推定情報を生成する、
(7)に記載の情報処理装置。
(9)
前記生成部は、
複数の品詞の各々に対応する複数のスコアを出力する前記モデルを用いて、前記文字列の品詞を推定する品詞推定情報を生成する、
(7)または(8)に記載の情報処理装置。
(10)
前記生成部は、
学習用バイト列と前記学習用バイト列に対応する正解情報との組合せである学習データを用いて学習された前記モデルを用いて、前記文字列の品詞を推定する品詞推定情報を生成する、
(7)〜(9)のいずれか1項に記載の情報処理装置。
(11)
前記生成部は、
前記文字列に対応する言語の前記学習データを用いて学習された前記言語に対応する前記モデルを用いて、前記文字列の品詞を推定する品詞推定情報を生成する、
(10)に記載の情報処理装置。
(12)
前記取得部は、
未知語である前記文字列を取得し、
前記生成部は、
前記未知語である前記文字列の品詞を推定する品詞推定情報を生成する、
(1)〜(11)のいずれか1項に記載の情報処理装置。
(13)
前記取得部は、
辞書情報に含まれない前記未知語である前記文字列を取得し、
前記生成部は、
前記辞書情報に含まれない前記文字列の品詞を推定する品詞推定情報を生成する、
(12)に記載の情報処理装置。
(14)
前記取得部は、
前記文字列に対応する言語の前記辞書情報に含まれず、前記言語での前記未知語である前記文字列を取得し、
前記生成部は、
前記言語での前記未知語である前記文字列の品詞を推定する品詞推定情報を生成する、
(13)に記載の情報処理装置。
(15)
前記生成部は、
前記文字列に含まれる文字の各々が複数バイトに変換された前記バイト列に基づいて、前記文字列の品詞を推定する品詞推定情報を生成する、
(1)〜(14)のいずれか1項に記載の情報処理装置。
(16)
前記生成部は、
前記文字列が少なくとも日本語を含む言語群のいずれかである場合、前記文字列に含まれる文字の各々が複数バイトに変換された前記バイト列に基づいて、前記文字列の品詞を推定する品詞推定情報を生成する、
(15)に記載の情報処理装置。
(17)
品詞の推定対象となる文字列を取得し、
前記文字列が変換されたバイト列に基づいて、前記文字列の品詞を推定する品詞推定情報を生成する、
処理を実行する情報処理方法。
100、100A 情報処理装置
11 通信部
12 入力部
13 表示部(ディスプレイ)
14 記憶部
141 辞書情報記憶部
142 モデル情報記憶部
143 品詞推定情報記憶部
15、15A 制御部
151、151A 取得部
152 学習部
153 生成部
154 解析部
155、155A 送信部
11 通信部
12 入力部
13 表示部(ディスプレイ)
14 記憶部
141 辞書情報記憶部
142 モデル情報記憶部
143 品詞推定情報記憶部
15、15A 制御部
151、151A 取得部
152 学習部
153 生成部
154 解析部
155、155A 送信部
Claims (17)
- 品詞の推定対象となる文字列を取得する取得部と、
前記文字列が変換されたバイト列に基づいて、前記文字列の品詞を推定する品詞推定情報を生成する生成部と、
を備える情報処理装置。 - 前記生成部は、
前記文字列が複数の品詞のうちいずれの品詞であるかを推定する前記品詞推定情報を生成する、
請求項1に記載の情報処理装置。 - 前記生成部は、
前記文字列の言語に対応する品詞体系に含まれる複数の品詞のうち、前記文字列がいずれの品詞であるかを推定する前記品詞推定情報を生成する、
請求項2に記載の情報処理装置。 - 前記生成部は、
前記文字列が複数の品詞のいずれであるかを示すスコアを含む前記品詞推定情報を生成する、
請求項2に記載の情報処理装置。 - 前記生成部は、
複数の品詞の各々に対応する複数のスコアを含む前記品詞推定情報を生成する、
請求項4に記載の情報処理装置。 - 前記生成部は、
前記文字列に対する複数の品詞の確率分布を示す前記品詞推定情報を生成する、
請求項2に記載の情報処理装置。 - 前記生成部は、
前記バイト列を入力とするモデルを用いて、前記文字列の品詞を推定する品詞推定情報を生成する、
請求項1に記載の情報処理装置。 - 前記生成部は、
前記文字列が複数の品詞のいずれであるかを示すスコアを出力する前記モデルを用いて、前記文字列の品詞を推定する品詞推定情報を生成する、
請求項7に記載の情報処理装置。 - 前記生成部は、
複数の品詞の各々に対応する複数のスコアを出力する前記モデルを用いて、前記文字列の品詞を推定する品詞推定情報を生成する、
請求項7に記載の情報処理装置。 - 前記生成部は、
学習用バイト列と前記学習用バイト列に対応する正解情報との組合せである学習データを用いて学習された前記モデルを用いて、前記文字列の品詞を推定する品詞推定情報を生成する、
請求項7に記載の情報処理装置。 - 前記生成部は、
前記文字列に対応する言語の前記学習データを用いて学習された前記言語に対応する前記モデルを用いて、前記文字列の品詞を推定する品詞推定情報を生成する、
請求項10に記載の情報処理装置。 - 前記取得部は、
未知語である前記文字列を取得し、
前記生成部は、
前記未知語である前記文字列の品詞を推定する品詞推定情報を生成する、
請求項1に記載の情報処理装置。 - 前記取得部は、
辞書情報に含まれない前記未知語である前記文字列を取得し、
前記生成部は、
前記辞書情報に含まれない前記文字列の品詞を推定する品詞推定情報を生成する、
請求項12に記載の情報処理装置。 - 前記取得部は、
前記文字列に対応する言語の前記辞書情報に含まれず、前記言語での前記未知語である前記文字列を取得し、
前記生成部は、
前記言語での前記未知語である前記文字列の品詞を推定する品詞推定情報を生成する、
請求項13に記載の情報処理装置。 - 前記生成部は、
前記文字列に含まれる文字の各々が複数バイトに変換された前記バイト列に基づいて、前記文字列の品詞を推定する品詞推定情報を生成する、
請求項1に記載の情報処理装置。 - 前記生成部は、
前記文字列が少なくとも日本語を含む言語群のいずれかである場合、前記文字列に含まれる文字の各々が複数バイトに変換された前記バイト列に基づいて、前記文字列の品詞を推定する品詞推定情報を生成する、
請求項15に記載の情報処理装置。 - 品詞の推定対象となる文字列を取得し、
前記文字列が変換されたバイト列に基づいて、前記文字列の品詞を推定する品詞推定情報を生成する、
処理を実行する情報処理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020061284A JP2021162917A (ja) | 2020-03-30 | 2020-03-30 | 情報処理装置及び情報処理方法 |
PCT/JP2021/011010 WO2021200200A1 (ja) | 2020-03-30 | 2021-03-18 | 情報処理装置及び情報処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020061284A JP2021162917A (ja) | 2020-03-30 | 2020-03-30 | 情報処理装置及び情報処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021162917A true JP2021162917A (ja) | 2021-10-11 |
Family
ID=77928756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020061284A Pending JP2021162917A (ja) | 2020-03-30 | 2020-03-30 | 情報処理装置及び情報処理方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2021162917A (ja) |
WO (1) | WO2021200200A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023074047A1 (ja) | 2021-10-25 | 2023-05-04 | ソニーグループ株式会社 | ニューラルネットワーク装置、検出方法、プログラム |
KR20240099156A (ko) | 2021-10-25 | 2024-06-28 | 소니그룹주식회사 | 뉴럴 네트워크 장치, 제어 방법, 프로그램 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3369127B2 (ja) * | 1999-08-04 | 2003-01-20 | 日本電信電話株式会社 | 形態素解析装置 |
JP2008305291A (ja) * | 2007-06-11 | 2008-12-18 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
CN101866337B (zh) * | 2009-04-14 | 2014-07-02 | 日电(中国)有限公司 | 词性标注系统、用于训练词性标注模型的装置及其方法 |
-
2020
- 2020-03-30 JP JP2020061284A patent/JP2021162917A/ja active Pending
-
2021
- 2021-03-18 WO PCT/JP2021/011010 patent/WO2021200200A1/ja active Application Filing
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023074047A1 (ja) | 2021-10-25 | 2023-05-04 | ソニーグループ株式会社 | ニューラルネットワーク装置、検出方法、プログラム |
KR20240099156A (ko) | 2021-10-25 | 2024-06-28 | 소니그룹주식회사 | 뉴럴 네트워크 장치, 제어 방법, 프로그램 |
Also Published As
Publication number | Publication date |
---|---|
WO2021200200A1 (ja) | 2021-10-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI684881B (zh) | 基於機器翻譯的自動生成重述以產生一對話式代理人的方法、系統及非暫態機器可讀取媒體 | |
TWI437449B (zh) | 多重模式輸入方法及輸入方法編輯器系統 | |
JP6333745B2 (ja) | 翻訳結果提供方法、翻訳結果提供システム、プログラムおよびファイル配布システム | |
JP2019504413A (ja) | 絵文字を提案するためのシステムおよび方法 | |
JP7343566B2 (ja) | 言語モデルを利用したデータ生成方法、コンピュータ装置、およびコンピュータプログラム | |
JP5513898B2 (ja) | 共有された言語モデル | |
JP2021197133A (ja) | 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム | |
CN111414561B (zh) | 用于呈现信息的方法和装置 | |
JP2015094848A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
WO2020199600A1 (zh) | 情感极性分析方法及相关装置 | |
JP6370962B1 (ja) | 生成装置、生成方法および生成プログラム | |
WO2021200200A1 (ja) | 情報処理装置及び情報処理方法 | |
Kawahara et al. | Rapid development of a corpus with discourse annotations using two-stage crowdsourcing | |
US11809804B2 (en) | Text formatter | |
JP2021047817A (ja) | 出力装置、及び出力プログラム | |
JP2024506171A (ja) | Casa:対話理解のための会話態様の感情分析のための方法、装置およびプログラム | |
WO2020199590A1 (zh) | 情绪检测分析方法及相关装置 | |
CN108268602A (zh) | 分析文本话题点的方法、装置、设备和计算机存储介质 | |
JP5317061B2 (ja) | 単語間の意味的関係の有無についての、複数言語での同時分類器及びそのためのコンピュータプログラム。 | |
CN111460224B (zh) | 评论数据的质量标注方法、装置、设备及存储介质 | |
JP2016162163A (ja) | 情報処理装置及び情報処理プログラム | |
JP7194759B2 (ja) | 翻訳用データ生成システム | |
JP6605997B2 (ja) | 学習装置、学習方法及びプログラム | |
US8666987B2 (en) | Apparatus and method for processing documents to extract expressions and descriptions | |
JP2017021523A (ja) | 用語意味コード判定装置、方法、及びプログラム |