JP2023028783A

JP2023028783A - 情報処理装置、情報処理方法、及び情報処理プログラム

Info

Publication number: JP2023028783A
Application number: JP2021134681A
Authority: JP
Inventors: 颯太山城; Sota Yamashiro
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2023-03-03

Abstract

【課題】モデルの学習に利用可能な文字情報を効率的に生成すること。
【解決手段】本願に係る情報処理装置は、取得部と、生成部とを有する。取得部は、所定の種別に該当する文字列である抽出対象文字列を文字情報から抽出するモデルの学習に用いるためのラベルが付された第１文字情報を含む学習用データセットと、ラベルが付されていない文字情報である第２文字情報とを取得する。生成部は、学習用データセットのうち、第２文字情報と類似する第１文字情報を類似文字情報として選択し、類似文字情報中の抽出対象文字列である第１文字列を、第２文字情報中の抽出対象文字列である第２文字列に変更することにより、第２文字列を含み、モデルの学習に利用可能な文字情報である変更文字情報を生成する。
【選択図】図４

Description

本発明は、情報処理装置、情報処理方法、及び情報処理プログラムに関する。

機械学習等によりモデルを学習するために用いるデータの生成に関する様々な技術が提供されている。例えば、帳票の手書き文字領域に記入される複数の単語が登録されたデータベースと、手書き文字画像のデータセットとに基づいて文字列画像及び正解ラベルを含む学習用データを生成する技術が提供されている（例えば特許文献１等）。

特許第６５９０３５５号公報

しかしながら、上記の従来技術には、改善の余地がある。例えば、従来技術では手書き文字画像、すなわち画像を対象としており、文字情報を対象とするモデルの生成に用いるデータを生成することは難しい。そのため、モデルの学習に利用可能な文字情報を効率的に生成することが望まれている。

本願は、上記に鑑みてなされたものであって、モデルの学習に利用可能な文字情報を効率的に生成する情報処理装置、情報処理方法、及び情報処理プログラムを提供することを目的とする。

本願に係る情報処理装置は、所定の種別に該当する文字列である抽出対象文字列を文字情報から抽出するモデルの学習に用いるためのラベルが付された第１文字情報を含む学習用データセットと、前記ラベルが付されていない文字情報である第２文字情報とを取得する取得部と、前記学習用データセットのうち、前記第２文字情報と類似する前記第１文字情報を類似文字情報として選択し、前記類似文字情報中の前記抽出対象文字列である第１文字列を、前記第２文字情報中の前記抽出対象文字列である第２文字列に変更することにより、前記第２文字列を含み、前記モデルの学習に利用可能な文字情報である変更文字情報を生成する生成部と、を備えたことを特徴とする。

実施形態の一態様によれば、モデルの学習に利用可能な文字情報を効率的に生成することができるという効果を奏する。

図１は、実施形態に係る情報処理システムによる処理の一例を示す図である。図２は、生成処理の一例を示す図である。図３は、ベクトル変換処理の一例を示す図である。図４は、実施形態に係る情報処理装置の構成例を示す図である。図５は、実施形態に係る学習用データ記憶部の一例を示す図である。図６は、実施形態に係るモデル情報記憶部の一例を示す図である。図７は、実施形態に係る情報処理装置による処理の一例を示すフローチャートである。図８は、ハードウェア構成の一例を示す図である。

以下に、本願に係る情報処理装置、情報処理方法、及び情報処理プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法、及び情報処理プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

（実施形態）
〔１．情報処理〕
図１を用いて、実施形態に係る情報処理の一例について説明する。図１は、実施形態に係る情報処理システムによる処理の一例を示す図である。図１では、情報処理装置１００が生成した学習用データを用いて固有表現を抽出するモデルＭ１を生成する場合を一例として説明する。

まず、情報処理システム１の構成について説明する。図１に示すように、情報処理システム１は、端末装置１０と、情報処理装置１００とが含まれる。端末装置１０と、情報処理装置１００とは図示しない所定の通信網を介して、有線または無線により通信可能に接続される。なお、図１に示した情報処理システム１には、複数台の端末装置１０や、複数台の情報処理装置１００が含まれてもよい。

情報処理装置１００は、ラベルが付された文字情報（以下「第１文字情報」ともいう）中の文字列を、ラベルが付されていない文字情報（以下「第２文字情報」ともいう）中の文字列で変換して、モデルの学習に利用可能な文字情報を生成するコンピュータである。情報処理装置１００は、第１文字情報中で所定の種別に該当する文字列（以下「第１文字列」ともいう）を、第２文字情報中で所定の種別に該当すると推定される文字列（以下「第２文字列」ともいう）に変換する。図１の例では、所定の種別が固有表現である場合を一例として説明する。

これにより、情報処理装置１００は、第２文字列を含み、モデルの学習に利用可能な文字情報（以下「変更文字情報」ともいう）を生成する。図１では、情報処理装置１００は、所定の編集者ＥＤ１により人手でラベル付与された（人手ラベル付き訓練データ）等の第１文字情報を含む学習用データを用いて、新たに学習用データとして用いられる変更文字情報を生成する。

端末装置１０は、データ（文字情報）にラベル（正解情報）を付与し、人手で訓練データ（学習用データ）を生成するために利用されるデバイス（コンピュータ）である。端末装置１０は、データに対するラベルを付与する所定の編集者ＥＤ１によって利用される。端末装置１０は、例えば、スマートフォンや、タブレット型端末や、ノート型ＰＣ（Personal Computer）や、デスクトップＰＣや、携帯電話機や、ＰＤＡ（Personal Digital Assistant）等により実現される。図１は、端末装置１０がデスクトップＰＣである場合を示す。

例えば、所定の編集者ＥＤ１は、端末装置１０を操作して、各文字情報にラベルを付与する。例えば、端末装置１０は、所定の編集者ＥＤ１の操作に応じて、図２中に示すラベル付きデータである第１文字情報ＬＤ１のように、文字情報中の各文字列が該当する種別（属性）を示す情報（ラベル）を正解情報として付与する。

例えば、端末装置１０は、文字情報のうち所定の種別に該当する文字列が含まれる位置（範囲）を示すラベルを文字情報に付加する。例えば、ラベル文字情報のうち組織名等の固有名詞（固有表現）に該当する文字列を示すラベルを文字情報に付加する。端末装置１０は、所定の編集者ＥＤ１の操作に応じて、文字情報にラベルを付与することにより、学習用データを生成する。端末装置１０は、人手で生成された訓練データ（学習用データ）を情報処理装置１００へ送信する。

また、情報処理システム１は、ユーザによって利用されるデバイスであるユーザ端末を含んでもよい。ユーザ端末は、例えば、スマートフォンや、タブレット型端末や、ノート型ＰＣや、デスクトップＰＣや、携帯電話機や、ＰＤＡ等により実現され、ユーザに様々なサービスを提供する。ユーザ端末は、ユーザの操作に応じて処理を実行し、情報を表示する。

また、情報処理システム１は、インターネット百科事典に関するサービスをユーザに提供するサービス提供装置を含んでもよい。なお、ここでいうインターネット百科事典とは例えばＷｉｋｉｐｅｄｉａ等であってもよい。サービス提供装置は、所定の対象を解説する解説コンテンツに関する情報を提供する。サービス提供装置は、情報処理装置１００からの要求に応じて、所定の対象を解説する解説コンテンツの情報を情報処理装置１００に送信する。サービス提供装置は、ユーザ端末からの要求に応じて、所定の対象を解説する解説コンテンツの情報をユーザ端末に送信する。

以下、図１を用いて、情報処理の一例を説明する。まず、所定の編集者ＥＤ１は、各文字情報にラベルを付与する（ステップＳ１１）。例えば、所定の編集者ＥＤ１は、ラベルが付されていない文字情報の内容を確認し、文字情報中で固有表現に該当する文字列に、その文字列が固有表現であることを示すラベルを付すことにより、人手ラベル付き訓練データを生成する。例えば、所定の編集者ＥＤ１は、端末装置１０を操作して、図２中に示すラベル付きデータである第１文字情報ＬＤ１のように、文字情報中の各文字列が該当する種別（属性）を示す情報（ラベル）を正解情報として付与してもよいが、図２の詳細は後述する。

所定の編集者ＥＤ１は、各文字情報にラベルを付与が完了した後、端末装置１０を操作して、人手ラベル付き訓練データを情報処理装置１００へ送信する（ステップＳ１２）。端末装置１０は、所定の編集者ＥＤ１の操作に応じて、所定の編集者ＥＤ１がラベルを付した人手ラベル付き訓練データを情報処理装置１００へ送信する。

これにより、情報処理装置１００は、人手ラベル付き訓練データを取得する。そして、情報処理装置１００は、取得した人手ラベル付き訓練データを第１文字情報として学習用データセットＤＳ１に追加する。具体的には、情報処理装置１００は、端末装置１０から受信した人手ラベル付き訓練データを学習に用いるデータとして学習用データ記憶部１２１（図５参照）に登録する。

そして、情報処理装置１００は、学習用データセットＤＳ１中の第１文字情報群を用いて、新たな文字情報を生成する処理を行う。図１では、情報処理装置１００は、コンテンツから抽出された第２文字情報ＵＤ１を対象として、新たな文字情報を生成する処理を行う。ここで、第２文字情報ＵＤ１は、ラベルが付されていない文字情報である。例えば、第２文字情報ＵＤ１は、図２中に示す第２文字情報ＵＤ１のように、所定の対象（図２の例では「Ｘ曜日の〇〇」）についての解説が記載されたコンテンツに含まれる文字情報である。なお、第２文字情報ＵＤ１の抽出対象となるコンテンツは、インターネット百科事典内で提供されるコンテンツ等の様々なコンテンツであってもよい。第２文字情報ＵＤ１には、固有表現の第２文字列として「Ｘ曜日の〇〇」が含まれる。なお、Ｘ曜日の〇〇と抽象的に示すが、Ｘ曜日の〇〇は、実在する固有名詞（固有名称）であり、かつ新たに出現したアーティスト（組織名）を示す新語であるものとする。

情報処理装置１００は、学習用データセットＤＳ１のうち、第２文字情報ＵＤ１に類似する第１文字情報を選択する（ステップＳ１３）。例えば、情報処理装置１００は、各文字情報をベクトル化して、ベクトルの類似度を基に、類似文字情報を選択してもよい。この場合、情報処理装置１００は、学習用データセットＤＳ１中の各第１文字情報がベクトル化された第１ベクトルの各々と、第２文字情報ＵＤ１がベクトル化された第２ベクトルとの類似度に基づいて、類似文字情報を選択する。

例えば、情報処理装置１００は、第２ベクトルとのコサイン類似度が最大の第１ベクトルに対応する第１文字情報を類似文字情報として選択する。なお、ベクトル間の類似関係は、コサイン類似度に限らず、任意の指標が用いられてもよく、例えば、ユークリッド距離やマハラノビス距離等が用いられてもよい。例えば、情報処理装置１００は、文字情報をベクトルに変換するモデルＭ２を用いて、各文字情報をベクトルに変換する。例えば、情報処理装置１００は、ｗｏｒｄ２ｖｅｃ（「ｗ２ｖ」ともいう）に関する種々の技術を用いて学習されたモデルＭ２を用いて、各文字情報をベクトルに変換する。

例えば、情報処理装置１００は、第２文字情報ＵＤ１中の名詞に対応する各文字列をモデルＭ２に入力し、モデルＭ２が出力したベクトルの平均を第２文字情報ＵＤ１のベクトル（第２ベクトル）とする。また、情報処理装置１００は、第１文字情報ＬＤ１中の名詞に対応する各文字列をモデルＭ２に入力し、モデルＭ２が出力したベクトルの平均を第１文字情報ＬＤ１のベクトル（第１ベクトル）とする。なお、上記は一例に過ぎず、情報処理装置１００は、第２文字情報ＵＤ１全体をベクトル変換したものを第２ベクトルとし、第１文字情報ＬＤ１全体をベクトル変換したものを第１ベクトルとしてもよい。

図１では、情報処理装置１００は、学習用データセットＤＳ１のうち、第２文字情報ＵＤ１との類似度が最大である第１文字情報ＬＤ１を類似文字情報として選択する。第１文字情報ＬＤ１には、固有表現の第１文字列として「アーティストＡ」が含まれる。

なお、アーティストＡと抽象的に示すが、アーティストＡは、実在する固有名詞（固有名称）であるものとする。また、情報処理装置１００は、第２文字情報ＵＤ１に類似する第１文字情報がない場合、第２文字情報ＵＤ１を処理対象から除外してもよい。例えば、情報処理装置１００は、第２文字情報ＵＤ１との類似度が所定値以上の第１文字情報がない場合、第２文字情報ＵＤ１を処理対象から除外してもよい。

そして、情報処理装置１００は、類似文字情報中の第１文字列を第２文字列に変換することにより、第２文字列を含み、モデルの学習に利用可能な変更文字情報を生成する（ステップＳ１４）。図１では、情報処理装置１００は、第１文字情報ＬＤ１中の固有表現「アーティストＡ」を、第２文字情報ＵＤ１中の固有表現「Ｘ曜日の〇〇」に変換する。これにより、情報処理装置１００は、第１文字情報ＬＤ１中の第１文字列である「アーティストＡ」が第２文字列である「Ｘ曜日の〇〇」に変換された変更文字情報ＣＤ１を生成する。すなわち、情報処理装置１００は、第２文字列である「Ｘ曜日の〇〇」を含み、モデルＭ１の学習に利用可能な変更文字情報ＣＤ１を生成する。

情報処理装置１００は、生成した変更文字情報を第１文字情報として学習に用いるデータに追加する（ステップＳ１５）。図１では、情報処理装置１００は、第１文字情報ＬＤ１中の第１文字列である「アーティストＡ」が第２文字列である「Ｘ曜日の〇〇」に変換された変更文字情報ＣＤ１を学習用データセットＤＳ１に追加する。例えば、情報処理装置１００は、「Ｘ曜日の〇〇」を含む変更文字情報ＣＤ１に、変更文字情報ＣＤ１中の「Ｘ曜日の〇〇」が固有表現であることを示すラベルを対応付けて、第１文字情報として学習用データ記憶部１２１に格納する。

そして、情報処理装置１００は、変更文字情報ＣＤ１が追加された学習用データセットＤＳ１を用いて、モデルＭ１を学習する（ステップＳ１６）。情報処理装置１００は、学習用データセットＤＳ１を用いて、モデルＭ１の重み等のパラメータを学習（更新）する。モデルＭ１の学習処理には、任意の手法が採用可能である。

例えば、情報処理装置１００は、モデルＭ１に入力された文字情報に固有表現が含まれる場合、固有表現を示す情報を出力するようにモデルＭ１を学習する。例えば、情報処理装置１００は、モデルＭ１に変更文字情報ＣＤ１が入力された場合に、モデルＭ１が文字列「Ｘ曜日の〇〇」を出力するようにモデルＭ１を学習する。例えば、モデルＭ１は、再帰型ニューラルネットワーク（Recurrent Neural Network：ＲＮＮ）やＲＮＮを拡張したＬＳＴＭ（Long Short-Term Memory units）等のネットワークであってもよい。なお、上記は一例に過ぎず、モデルＭ１は、文字情報から所定の種別の文字列を抽出可能であれば、再帰型ニューラルネットワークに限らず、どのようなネットワーク構成が採用されてもよい。

上述したように、情報処理装置１００は、既にラベルが付されたデータ（第１文字情報）の第１文字列を他の文字列（第２文字列）に変換して、新たな学習用データを生成することにより、モデルの学習に利用可能な文字情報を効率的に生成することができる。図１の例では、情報処理装置１００は、新語である「Ｘ曜日の〇〇」を含む文字情報を学習用データに追加することができるため、固有表現が新語である場合であっても適切に抽出する可能性が高いモデルを学習することができる。このように、学習データ中にこれらのような新語の例が十分に含まれていれば、機械学習モデルがこれら新語に対処できる可能性が上がるため、情報処理システム１では、新語の固有表現が含まれた学習データを生成し、水増しすることにより、新語であっても適切に抽出する可能性が高いモデルを学習することができる。

〔１－１．処理例〕
ここで、図２、３を参照して、図１で説明した内容に関する処理例を説明する。図２は、生成処理の一例を示す図である。図３は、ベクトル変換処理の一例を示す図である。

図２に示すように、第２文字情報ＵＤ１は、例えばＷｉｋｉｐｅｄｉａなどのインターネット百科事典のコンテンツＣＴを対象として抽出された文字情報である。新語のような新たに生まれた固有表現については、情報処理システム１では、十分な情報が手元にない場合が多い。そのため、情報処理装置１００は、例えばインターネット百科事典に直近（例えば１カ月以内等）で追加されたリンク数の多いエントリーを収集する。これにより、情報処理装置１００は、例えばインターネット百科事典内の解説コンテンツを取得する。

そして、情報処理装置１００は、解説コンテンツに付けられたタグから、解説コンテンツ中に含まれる文字列のうち固有表現を推定する。例えば、情報処理装置１００は、解説コンテンツのＨＴＭＬ（Hyper Text Markup Language）を解析し、各種の情報を推定してもよい。例えば、情報処理装置１００は、解説コンテンツのＨＴＭＬを解析し、解説コンテンツの見出しの部分を、解説コンテンツが説明する対象であると推定する。

また、例えば、情報処理装置１００は、解説コンテンツに付されたタグが、音楽ユニット等の組織名等である場合、解説コンテンツの見出しの部分が示す対象が固有表現であると推定する。例えば、情報処理装置１００は、解説コンテンツに付されたタグが示すカテゴリが、音楽ユニット等の組織名等である場合、解説コンテンツの見出しの部分が示す対象が固有表現であると推定してもよい。

そして、情報処理装置１００は、解説コンテンツの見出し部分が示す文字列を第２文字列とし、解説コンテンツ中の見出し部分に続く文章とともに第２文字情報として抽出してもよい。なお、上記は一例に過ぎず、第２文字情報は様々な情報を含む情報であってもよい。また、情報処理装置１００は、解析コンテンツから抽出された第２文字情報をサービス提供装置から取得してもよい。

例えば、インターネット百科事典のコンテンツＣＴは、例えば５万エントリー等と多数あり、また収集するコストは低い。一方で、人手ラベル付き訓練データが含まれる学習用データセットＤＳ１については生成するコストが高く、例えば３０００個等と少数である。そこで、情報処理装置１００は、コンテンツＣＴと人手ラベル付き訓練データＭＤ１とを用いて、新たな学習用データを自動で生成する。

例えば、情報処理装置１００は、コンテンツＣＴに含まれる解説コンテンツのうち、説明する対象が新語であるコンテンツ（「新語コンテンツ」ともいう）を選択する。例えば、情報処理装置１００は、各解説コンテンツが説明する対象のうち、学習用データセットＤＳ１中の第１文字情報に固有表現として含まれない対象を新語であると推定する。そして、情報処理装置１００は、説明する対象が新語であると推定したコンテンツを新語コンテンツとして選択する。情報処理装置１００は、新語コンテンツから第２文字情報を生成する。

例えば、情報処理装置１００は、解説コンテンツの見出し部分が示す文字列（第２文字列）と、解説コンテンツ中の見出し部分に続く文章とを抽出することにより、第２文字情報を生成する。情報処理装置１００は、見出しが「Ｘ曜日の〇〇」である解説コンテンツから、見出し部分が示す第２文字列「Ｘ曜日の〇〇」と、解説コンテンツ中の見出し部分に続く文章とを抽出することにより、第２文字情報ＵＤ１を生成する。

そして、情報処理装置１００は、学習用データセットＤＳ１のうち、第２文字情報ＵＤ１に類似する第１文字情報を選択する。例えば、情報処理装置１００は、学習用データセットＤＳ１中の各第１文字情報と第２文字情報ＵＤ１との各々をベクトル化して、ベクトルの類似度を基に、類似文字情報を選択する。情報処理装置１００は、学習用データセットＤＳ１中の各第１文字情報と第２文字情報ＵＤ１との各々をベクトル化する。情報処理装置１００は、文字情報をベクトルに変換するモデルＭ２を用いて、各文字情報をベクトルに変換する。

図３では、情報処理装置１００は、第２文字情報ＵＤ１をモデルＭ２に入力することより、モデルＭ２に第２文字情報ＵＤ１をベクトル化したベクトルＶＣ１を出力させることにより、第２文字情報ＵＤ１をベクトルに変換する。また、情報処理装置１００は、第１文字情報ＬＤ１をモデルＭ２に入力することより、モデルＭ２に第１文字情報ＬＤ１をベクトル化したベクトルＶＣ２を出力させることにより、第１文字情報ＬＤ１をベクトルに変換する。なお、図３では、第１文字情報ＬＤ１のみを図示するが、情報処理装置１００は、学習用データセットＤＳ１中の各第１文字情報をベクトル化するものとする。

例えば、情報処理装置１００は、第２文字情報ＵＤ１のベクトルＶＣ１とのコサイン類似度が最大であるベクトルに対応する第１文字情報を類似文字情報として選択する。図２では、情報処理装置１００は、固有表現の第１文字列として「アーティストＡ」が含まれる第１文字情報ＬＤ１を類似文字情報として選択する。このように、情報処理装置１００は、学習データ中の文（ベクトル）と最もよく似た説明文（ベクトル）を持つエントリーを対象として、処理を実行する。これにより、情報処理装置１００は、元文と関連のないエントリーが選ばれる可能性を抑制することができる。これにより、情報処理装置１００は、学習データ中の文と似た説明文を持つエントリーを対象として、処理を実行する。

そして、情報処理装置１００は、第１文字情報ＬＤ１中の固有表現「アーティストＡ」を、第２文字情報ＵＤ１中の固有表現「Ｘ曜日の〇〇」に変換する。これにより、情報処理装置１００は、第１文字情報ＬＤ１中の第１文字列である「アーティストＡ」が第２文字列である「Ｘ曜日の〇〇」に変換された変更文字情報ＣＤ１を生成する。図２の例では、情報処理装置１００は、固有表現の一例である組織名のラベル部分に「Ｘ曜日の〇〇」が配置された変更文字情報ＣＤ１を生成する。これにより、情報処理装置１００は、自動的（人工的）に作成された新しい学習用データを用いてモデルを学習することができる。

なお、上記の処理は一例に過ぎず、情報処理装置１００は、変更文字情報を生成可能であれば、どのような処理を行ってもよい。例えば、情報処理装置１００は、学習用データセットＤＳ１から一の第１文字情報を選択し、コンテンツＣＴの中から、選択した第１文字情報（選択第１文字情報）に類似する第２文字情報を選択してもよい。この場合、情報処理装置１００は、選択第１文字情報に類似する第２文字情報がない場合、選択第１文字情報を処理対象から除外してもよい。例えば、情報処理装置１００は、選択第１文字情報との類似度が所定値以上の第２文字情報がない場合、選択第１文字情報を処理対象から除外してもよい。

〔１－２．その他例〕
上述した処理は一例に過ぎず、情報処理システム１は、様々な処理を行ってもよい。例えば、上述した処理では、固有表現を抽出するモデルを学習する場合を示したが、学習されるモデルは、固有表現を抽出するモデルに限られない。例えば、モデルは、入力された記事等のテキストについて、キーワード抽出して、主題や人工物名等を見つけて、ウィキなどのリンクをはるモデルであってもよい。また、例えば、モデルは、人名、クレジットカードの番号等の個人情報のマスキングするために用いるモデルであってもよい。また、キーワード関連の処理を行うためのモデルであれば、任意のモデルが採用可能である。

例えば、情報処理システム１は、置換する文字列と類似する文字列を見つけて、置き換えることで学習データを拡張してもよい。例えば、情報処理システム１は、インターネット百科事典でのリンクの類似性が高いコンテンツやインターネット百科事典の記事内容が近いコンテンツを対象としてもよい。例えば、情報処理システム１は、ｗ２ｖやｓ２ｖ等のベクトル化に関する任意の技術を用いて、名詞だけベクトル化して、平均化してもよい。また、情報処理システム１は、要約を作ってベクトル化してもよい。

例えば、情報処理システム１は、学習データ内の各単語（組織名、人工物等）を、インターネット百科事典の同一ページ内から抽出して組み替えることで、新しい変更文字情報を生成してもよい。また、文字情報は、説明文章が含まれていればよく、訓練データの元と、置き換える元のデータとは違うものであってもよい。また、情報処理システム１は、適用したいカテゴリごとにモデルを作ってもよい。例えば、情報処理システム１は、日本の音楽ユニット等、インターネット百科事典のカテゴリごとに学習用データを生成し、カテゴリごとの学習用データを用いて、カテゴリごとのモデルを生成してもよい。

〔２．情報処理装置の構成〕
次に、図４を用いて、実施形態に係る情報処理装置１００の構成について説明する。図４は、実施形態に係る情報処理装置１００の構成例を示す図である。図４に示すように、情報処理装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。なお、情報処理装置１００は、情報処理装置１００の管理者等から各種操作を受け付ける入力部（例えば、キーボードやマウス等）や、各種情報を表示するための表示部（例えば、液晶ディスプレイ等）を有してもよい。

（通信部１１０）
通信部１１０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。そして、通信部１１０は、所定の通信網（ネットワーク）と有線または無線で接続され、端末装置１０との間で情報の送受信を行う。

（記憶部１２０）
記憶部１２０は、例えば、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。実施形態に係る記憶部１２０は、図４に示すように、学習用データ記憶部１２１と、モデル情報記憶部１２２と、コンテンツ情報記憶部１２３とを有する。

（学習用データ記憶部１２１）
実施形態に係る学習用データ記憶部１２１は、学習に用いるデータに関する各種情報を記憶する。学習用データ記憶部１２１は、学習に用いる学習データ（データセット）を記憶する。図５は、実施形態に係る学習用データ記憶部の一例を示す図である。例えば、学習用データ記憶部１２１は、学習に用いる学習データや精度評価（測定）に用いる評価用データ等の種々のデータに関する各種情報を記憶する。図５に、実施形態に係る学習用データ記憶部１２１の一例を示す。図５の例では、学習用データ記憶部１２１は、「データセットＩＤ」、「データＩＤ」、「データ」、「ラベル」、「日時」といった項目が含まれる。

「データセットＩＤ」は、データセットを識別するための識別情報を示す。「データＩＤ」は、データを識別するための識別情報を示す。また、「データ」は、データＩＤにより識別されるデータに対応するデータを示す。

「ラベル」は、対応するデータに付されるラベル（正解ラベル）を示す。例えば、「ラベル」は、対応するデータ（文字情報）中の各文字列がどの種別に該当するかを示す情報（正解情報）であってもよい。例えば、「ラベル」は、文字情報のうち所定の種別に該当する文字列が含まれる位置（範囲）を示す正解情報である。例えば、「ラベル」は、文字情報のうち組織名等の固有名詞（固有表現）に該当する文字列を示す正解情報であってもよい。また、「ラベル」は、人名や地名などといった固有名詞、日付表現、時間表現等の固有表現に該当する文字列を示す正解情報であってもよい。

また、「日時」は、対応するデータに関する時間（日時）を示す。なお、図５の例では、「ＤＡ１」等で図示するが、「日時」には、「２０２１年８月１２日１７時４８分３７秒」等の具体的な日時であってもよいし、「バージョンＸＸのモデル学習から使用開始」等、そのデータがどのモデルの学習から使用が開始されたかを示す情報が記憶されてもよい。

図５の例では、データセットＩＤ「ＤＳ１」により識別されるデータセット（データセットＤＳ１）には、データＩＤ「ＤＩＤ１」、「ＤＩＤ２」、「ＤＩＤ３」等により識別される複数のデータが含まれることを示す。例えば、データＩＤ「ＤＩＤ１」、「ＤＩＤ２」、「ＤＩＤ３」等により識別される各データ（学習用データ）は、モデルの学習に用いられる文字情報（文字データ）等である。

例えば、データＩＤ「ＤＩＤ１」により識別されるデータＤＴ１は、ラベルＬＢ１が付されたラベル有りデータであり、日時ＤＡ１でのモデルの学習から使用が開始されたことを示す。また、例えば、データＩＤ「ＤＩＤ４」により識別されるデータＤＴ４は、ラベル無しデータとして取集され、予測ラベルであるラベルＬＢ４が付されたデータであり、日時ＤＡ４でのモデルの学習から使用が開始されたことを示す。

なお、学習用データ記憶部１２１は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、学習用データ記憶部１２１は、各データが学習用データであるか、評価用データであるか等を特定可能に記憶してもよい。例えば、学習用データ記憶部１２１は、学習用データと評価用データとを区別可能に記憶する。学習用データ記憶部１２１は、各データが学習用データや評価用データであるかを識別する情報を記憶してもよい。情報処理装置１００は、学習用データとして用いられる各データと正解情報とに基づいて、モデルを学習する。情報処理装置１００は、評価用データとして用いられる各データと正解情報とに基づいて、モデルの精度を算出する。情報処理装置１００は、評価用データを入力した場合にモデルが出力する出力結果と、正解情報とを比較した結果を収集することにより、モデルの精度を算出する。

（モデル情報記憶部１２２）
実施形態に係るモデル情報記憶部１２２は、モデルに関する情報を記憶する。例えば、モデル情報記憶部１２２は、学習処理により学習（生成）された学習済みモデル（モデル）の情報（モデルデータ）を記憶する。図６は、実施形態に係るモデル情報記憶部の一例を示す図である。図６に示した例では、モデル情報記憶部１２２は、「モデルＩＤ」、「用途」、「モデルデータ」といった項目が含まれる。

「モデルＩＤ」は、モデルを識別するための識別情報を示す。「用途」は、対応するモデルの用途を示す。「モデルデータ」は、モデルのデータを示す。図６等では「モデルデータ」に「ＭＤＴ１」といった概念的な情報が格納される例を示したが、実際には、モデルの構成（ネットワーク構成）の情報やパラメータに関する情報等、そのモデルを構成する種々の情報が含まれる。例えば、「モデルデータ」には、ネットワークの各層におけるノードと、各ノードが採用する関数と、ノードの接続関係と、ノード間の接続に対して設定される接続係数とを含む情報が含まれる。

図６に示す例では、モデルＩＤ「Ｍ１」により識別されるモデル（モデルＭ１）は、用途が「固有表現抽出」であることを示す。すなわち、モデルＭ１は、入力された文字情報中で固有表現に該当する文字列を示す情報（文字列等）を出力するモデルであることを示す。また、モデルＭ１のモデルデータは、モデルデータＭＤＴ１であることを示す。

また、モデルＩＤ「Ｍ２」により識別されるモデル（モデルＭ２）は、用途が「ベクトル変換」であることを示す。すなわち、モデルＭ２は、入力された情報（例えば文字情報）をベクトル変換したベクトルを出力するモデルであることを示す。モデルＭ２のモデルデータは、モデルデータＭＤＴ２であることを示す。

なお、モデル情報記憶部１２２は、上記に限らず、目的に応じて種々の情報を記憶してもよい。

（コンテンツ情報記憶部１２３）
実施形態に係るコンテンツ情報記憶部１２３は、コンテンツに関する各種情報を記憶する。例えば、コンテンツ情報記憶部１２３は、第２文字情報の抽出対象となるコンテンツに関する各種情報を記憶する。例えば、コンテンツ情報記憶部１２３は、インターネット上で提供される所定のコンテンツの情報を記憶する。例えば、コンテンツ情報記憶部１２３は、所定の対象を解説する解説コンテンツの情報を記憶する。例えば、コンテンツ情報記憶部１２３は、インターネット百科事典内のコンテンツの情報を記憶する。例えば、コンテンツ情報記憶部１２３は、インターネット百科事典に関するサービスをユーザに提供するサービス提供装置から受信したコンテンツの情報を記憶する。

コンテンツ情報記憶部１２３は、所定のコンテンツから抽出された第２文字情報を記憶する。コンテンツ情報記憶部１２３は、インターネット上で提供される所定のコンテンツから抽出された第２文字情報を記憶する。コンテンツ情報記憶部１２３は、所定の対象を解説する解説コンテンツから抽出された第２文字情報を記憶する。コンテンツ情報記憶部１２３は、第１文字列が示す対象とは異なる対象を解説する解説コンテンツから抽出された第２文字情報を記憶する。コンテンツ情報記憶部１２３は、インターネット百科事典内のコンテンツから抽出された第２文字情報を記憶する。

なお、上記は一例に過ぎず、コンテンツ情報記憶部１２３は、様々なコンテンツ等の情報を記憶してもよい。

（制御部１３０）
図４の説明に戻って、制御部１３０は、コントローラ（controller）であり、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、情報処理装置１００内部の記憶装置に記憶されている各種プログラム（情報処理プログラムの一例に相当）がＲＡＭを作業領域として実行されることにより実現される。また、制御部１３０は、コントローラであり、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現される。

図４に示すように、制御部１３０は、取得部１３１と、生成部１３２と、学習部１３３と、処理部１３４と、提供部１３５とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１３０の内部構成は、図４に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部１３０が有する各処理部の接続関係は、図４に示した接続関係に限られず、他の接続関係であってもよい。

（取得部１３１）
取得部１３１は、通信部１１０を介して、外部の情報処理装置から各種情報を受信する。取得部１３１は、端末装置１０から各種情報を受信する。取得部１３１は、端末装置１０から受信したラベル付きの訓練データ（文字情報）を学習用データとして記憶部１２０へ格納する。取得部１３１は、端末装置１０から受信したラベル付き文字情報を、モデルの学習に用いるデータ（学習データ）として学習用データ記憶部１２１に登録する。また、取得部１３１は、インターネット百科事典に関するサービスをユーザに提供するサービス提供装置からコンテンツの情報を受信する。取得部１３１は、サービス提供装置から第２文字情報を受信してもよい。

取得部１３１は、記憶部１２０から各種の情報を取得する。取得部１３１は、学習用データ記憶部１２１から学習に用いるデータを取得する。取得部１３１は、モデル情報記憶部１２２からモデルの情報を取得する。

取得部１３１は、所定のコンテンツから抽出された第２文字情報を取得する。取得部１３１は、インターネット上で提供される所定のコンテンツから抽出された第２文字情報を取得する。取得部１３１は、所定の対象を解説する解説コンテンツから抽出された第２文字情報を取得する。取得部１３１は、第１文字列が示す対象とは異なる対象を解説する解説コンテンツから抽出された第２文字情報を取得する。取得部１３１は、インターネット百科事典内のコンテンツから抽出された第２文字情報を取得する。

（生成部１３２）
生成部１３２は、各種情報を生成する。例えば、生成部１３２は、記憶部１２０に記憶された情報（データ）から各種情報（データ）を生成する。生成部１３２は、生成した情報を記憶部１２０に登録する。例えば、生成部１３２は、学習用データ記憶部１２１や、モデル情報記憶部１２２や、コンテンツ情報記憶部１２３等に記憶された情報（データ）から各種情報を生成する。

生成部１３２は、各種情報を選択する。生成部１３２は、学習用データセットから、所定の条件を満たす文字情報を選択する。生成部１３２は、学習用データセットから、第２文字情報との類似度に基づいて類似文字情報を選択する。生成部１３２は、学習用データセットのうち、第２文字情報との類似度が最大である第１文字情報を類似文字情報として選択する。生成部１３２は、学習用データセット中の各第１文字情報がベクトル化された第１ベクトルの各々と、第２文字情報がベクトル化された第２ベクトルとの類似度に基づいて、類似文字情報を選択する。

生成部１３２は、各種情報を推定する。生成部１３２は、文字情報に含まれる文字列のうち新語を推定する。例えば、生成部１３２は、各解説コンテンツが説明する対象のうち、学習用データセットＤＳ１中の第１文字情報に固有表現として含まれない対象を新語であると推定する。そして、生成部１３２は、説明する対象が新語であると推定したコンテンツを新語コンテンツとして選択する。生成部１３２は、新語コンテンツから第２文字情報を生成する。

生成部１３２は、類似文字情報中の第１文字列を、第２文字情報中の第２文字列に変更することにより、変更文字情報を生成する。生成部１３２は、第１文字列が所定の種別に該当することを示す種別ラベルを第２文字列の種別ラベルとする変更文字情報を生成する。生成部１３２は、類似文字情報中の固有表現である第１文字列を、第２文字情報中の固有表現である第２文字列に変更することにより、変更文字情報を生成する。

（学習部１３３）
学習部１３３は、モデルを学習する。学習部１３３は、外部の情報処理装置からの情報や記憶部１２０に記憶された情報に基づいて、各種情報を学習する。学習部１３３は、学習用データ記憶部１２１に記憶された情報に基づいて、各種情報を学習する。学習部１３３は、学習により生成したモデルをモデル情報記憶部１２２に格納する。

学習部１３３は、生成部１３２が生成した文字情報を含む学習用データを用いてモデルを学習する。学習部１３３は、生成部１３２により生成された変更文字情報を用いた機械学習の処理により、モデルを学習する。学習部１３３は、文字情報の入力に応じて、当該文字情報に抽出対象文字列が含まれる場合、抽出対象文字列を出力するモデルを学習する。学習部１３３は、変更文字情報から第２文字列が抽出されるようにモデルを学習する。

学習部１３３は、学習処理を行う。学習部１３３は、各種学習を行う。学習部１３３は、取得部１３１により取得された情報に基づいて、各種情報を学習する。学習部１３３は、モデルを学習（生成）する。学習部１３３は、モデル等の各種情報を学習する。学習部１３３は、学習によりモデルを生成する。学習部１３３は、種々の機械学習に関する技術を用いて、モデルを学習する。例えば、学習部１３３は、モデル（ネットワーク）のパラメータを学習する。学習部１３３は、種々の機械学習に関する技術を用いて、モデルを学習する。

学習部１３３は、学習用データ記憶部１２１に記憶された学習用データ（教師データ）に基づいて、学習処理を行う。学習部１３３は、モデル（ネットワーク）のパラメータを学習する。学習部１３３は、接続されたノード間の接続係数（重み）等のパラメータを学習する。学習部１３３は、種々の機械学習に関する技術を用いて、モデルを学習する。学習部１３３は、モデルに入力するデータと、そのデータが入力された場合の出力を示す正解データとを用いて行う学習処理、すなわち教師有り学習の手法によりモデルのパラメータを学習する。なお、上記は一例であり、学習部１３３は、モデルのパラメータを学習可能であれば、どのような学習処理により、モデルのパラメータを学習してもよい。

学習部１３３は、モデルＭ１を生成する。学習部１３３は、ネットワークのパラメータを学習する。例えば、学習部１３３は、モデルＭ１のネットワークのパラメータを学習する。学習部１３３は、学習用データ記憶部１２１に記憶された学習用データを用いて、学習処理を行うことにより、モデルＭ１を生成する。例えば、学習部１３３は、固有表現抽出に用いられるモデルを生成する。学習部１３３は、モデルＭ１のネットワークのパラメータを学習することにより、モデルＭ１を生成する。

学習部１３３による学習の手法は特に限定されないが、例えば、ラベルとデータ（文字情報）とを紐づけた学習用データを用意し、その学習用データを多層ニューラルネットワークに基づいた計算モデルに入力して学習してもよい。学習部１３３は、再帰型ニューラルネットワーク（ＲＮＮ）やＲＮＮを拡張したＬＳＴＭに基づく手法を用いてもよい。

例えば、学習部１３３は、Ｓｅｑ２Ｓｅｑ（Sequence to Sequence Model）であるモデルＭ１を学習してもよい。例えば、Ｓｅｑ２Ｓｅｑは、ＲＮＮの一種であるＬＳＴＭを構成要素とするEncoder-Decoderモデルである。例えば、モデルＭ１は、図２の第２文字情報ＵＤ１に対応する文字情報が入力された場合、「Ｘ曜日の〇〇」という文字列を出力する。このように、Ｓｅｑ２ＳｅｑであるモデルＭ１は、第２文字情報ＵＤ１に対応する文字情報が入力されるEncoder側でベクトル化を行い、Decoder側で「Ｘ曜日の〇〇」を出力するようにＲＮＮの学習を行う。

（処理部１３４）
処理部１３４は、各種の処理を実行する。処理部１３４は、学習部１３３により学習されたモデルＭ１を用いた処理を実行する。処理部１３４は、文字情報をモデルＭ１に入力し、モデルＭ１が出力した文字列を固有表現の文字列とする。例えば、処理部１３４は、文字情報をモデルＭ１に入力し、モデルＭ１が出力した文字列を新語であるとする。

処理部１３４は、文字情報をモデルＭ１に入力し、モデルＭ１が出力した文字列を固有表現の文字列を示す情報を外部装置へ提供部１３５に送信させる。

（提供部１３５）
提供部１３５は、通信部１１０を介して、外部装置へ情報を送信する。提供部１３５は、ユーザが利用する端末装置１０へ情報提供サービスを提供する。例えば、提供部１３５は、学習部１３３により学習されたモデルＭ１を端末装置１０へ送信する。提供部１３５は、処理部１３４による処理結果を示す情報を端末装置１０へ送信する。

提供部１３５は、処理部１３４による処理結果を示す情報を提供する。提供部１３５は、新語を示す情報を端末装置１０に送信する。提供部１３５は、固有表現を示す情報を端末装置１０に送信する。

〔３．処理フロー〕
次に、図７を用いて、実施形態に係る情報処理システム１による情報処理の手順について説明する。図７は、実施形態に係る情報処理装置による処理の一例を示すフローチャートである。

図７に示すように、情報処理装置１００は、所定の種別に該当する文字列である抽出対象文字列を文字情報から抽出するモデルの学習に用いるためのラベルが付された第１文字情報を含む学習用データセット文字情報を取得する（ステップＳ１０１）。

情報処理装置１００は、ラベルが付されていない文字情報である第２文字情報を取得する（ステップＳ１０２）。情報処理装置１００は、学習用データセットのうち、第２文字情報と類似する第１文字情報を類似文字情報として選択する（ステップＳ１０３）。

情報処理装置１００は、類似文字情報中の抽出対象文字列である第１文字列を、第２文字情報中の抽出対象文字列である第２文字列に変更することにより、第２文字列を含み、モデルの学習に利用可能な変更文字情報を生成する（ステップＳ１０４）。

〔４．効果〕
上述してきたように、実施形態に係る情報処理装置１００は、取得部１３１と、生成部１３２とを有する。取得部１３１は、所定の種別に該当する文字列である抽出対象文字列を文字情報から抽出するモデルの学習に用いるためのラベルが付された第１文字情報を含む学習用データセットと、ラベルが付されていない文字情報である第２文字情報とを取得する。生成部１３２は、学習用データセットのうち、第２文字情報と類似する第１文字情報を類似文字情報として選択し、類似文字情報中の抽出対象文字列である第１文字列を、第２文字情報中の抽出対象文字列である第２文字列に変更することにより、第２文字列を含み、モデルの学習に利用可能な文字情報である変更文字情報を生成する。

このように、実施形態に係る情報処理装置１００は、既存の学習用データに含まれる文字情報の文字列を変換することで新たな学習用データを生成することにより、モデルの学習に利用可能な文字情報を効率的に生成することができる。

また、実施形態に係る情報処理装置１００において、取得部１３１は、所定のコンテンツから抽出された第２文字情報を取得する。

このように、実施形態に係る情報処理装置１００は、所定のコンテンツから抽出された第２文字情報の第２文字列に第１文字情報の第１文字列を変換して新たな学習用データを生成することにより、モデルの学習に利用可能な文字情報を効率的に生成することができる。

また、実施形態に係る情報処理装置１００において、取得部１３１は、インターネット上で提供される所定のコンテンツから抽出された第２文字情報を取得する。

このように、実施形態に係る情報処理装置１００は、インターネット上で提供される所定のコンテンツから抽出された第２文字情報の第２文字列に第１文字情報の第１文字列を変換して新たな学習用データを生成することにより、モデルの学習に利用可能な文字情報を効率的に生成することができる。

また、実施形態に係る情報処理装置１００において、取得部１３１は、所定の対象を解説する解説コンテンツから抽出された第２文字情報を取得する。

このように、実施形態に係る情報処理装置１００は、所定の対象を解説する解説コンテンツから抽出された第２文字情報の第２文字列に第１文字情報の第１文字列を変換して新たな学習用データを生成することにより、モデルの学習に利用可能な文字情報を効率的に生成することができる。

また、実施形態に係る情報処理装置１００において、取得部１３１は、第１文字列が示す対象とは異なる対象を解説する解説コンテンツから抽出された第２文字情報を取得する。

このように、実施形態に係る情報処理装置１００は、第１文字列が示す対象とは異なる対象を解説する解説コンテンツから抽出された第２文字情報の第２文字列に第１文字情報の第１文字列を変換して新たな学習用データを生成することにより、モデルの学習に利用可能な文字情報を効率的に生成することができる。

また、実施形態に係る情報処理装置１００において、取得部１３１は、インターネット百科事典内のコンテンツから抽出された第２文字情報を取得する。

このように、実施形態に係る情報処理装置１００は、インターネット百科事典内のコンテンツから抽出された第２文字情報の第２文字列に第１文字情報の第１文字列を変換して新たな学習用データを生成することにより、モデルの学習に利用可能な文字情報を効率的に生成することができる。

また、実施形態に係る情報処理装置１００において、生成部１３２は、学習用データセットから、第２文字情報との類似度に基づいて類似文字情報を選択し、類似文字情報中の第１文字列を、第２文字情報中の第２文字列に変更することにより、変更文字情報を生成する。

このように、実施形態に係る情報処理装置１００は、学習用データセットから、第２文字情報との類似度に基づいて類似文字情報を選択して、選択した類似文字情報を用いて変更文字情報を生成することにより、モデルの学習に利用可能な文字情報を効率的に生成することができる。

また、実施形態に係る情報処理装置１００において、生成部１３２は、学習用データセットのうち、第２文字情報との類似度が最大である第１文字情報を類似文字情報として選択する。

このように、実施形態に係る情報処理装置１００は、学習用データセットのうち第２文字情報との類似度が最大である第１文字情報を用いて変更文字情報を生成することにより、モデルの学習に利用可能な文字情報を効率的に生成することができる。

また、実施形態に係る情報処理装置１００において、生成部１３２は、学習用データセット中の各第１文字情報がベクトル化された第１ベクトルの各々と、第２文字情報がベクトル化された第２ベクトルとの類似度に基づいて、類似文字情報を選択する。

このように、実施形態に係る情報処理装置１００は、学習用データセットのうちベクトル化した状態で第２文字情報と類似する第１文字情報を用いて変更文字情報を生成することにより、モデルの学習に利用可能な文字情報を効率的に生成することができる。

また、実施形態に係る情報処理装置１００において、生成部１３２は、第１文字列が所定の種別に該当することを示す種別ラベルを第２文字列の種別ラベルとする変更文字情報を生成する。

このように、実施形態に係る情報処理装置１００は、学習用データセットから、第１文字列のラベルを第２文字列のラベルとして用いることで、自動的に第２文字列にラベルが付与されるため、モデルの学習に利用可能な文字情報を効率的に生成することができる。

また、実施形態に係る情報処理装置１００において、取得部１３１は、固有表現に該当する抽出対象文字列を文字情報から抽出するモデルの学習に用いられる学習用データセットを取得する。生成部１３２は、類似文字情報中の固有表現である第１文字列を、第２文字情報中の固有表現である第２文字列に変更することにより、変更文字情報を生成する。

このように、実施形態に係る情報処理装置１００は、文字情報中の固有表現を他の固有表現に変換することで、新たな学習用データを生成することにより、固有表現を抽出するモデルの学習に利用可能な文字情報を効率的に生成することができる。

また、実施形態に係る情報処理装置１００は、学習部１３３を有する。学習部１３３は、生成部１３２により生成された変更文字情報を用いた機械学習の処理により、モデルを学習する。

これにより、実施形態に係る情報処理装置１００は、変更文字情報を用いた機械学習の処理により、モデルを学習することより、生成した情報を用いて適切にモデルを学習することができる。

また、実施形態に係る情報処理装置１００において、学習部１３３は、文字情報の入力に応じて、当該文字情報に抽出対象文字列が含まれる場合、抽出対象文字列を出力するモデルを学習する。

これにより、実施形態に係る情報処理装置１００は、生成した情報を用いて抽出対象文字列を出力するモデルを学習することができる。

また、実施形態に係る情報処理装置１００において、学習部１３３は、変更文字情報から第２文字列が抽出されるようにモデルを学習する。

〔５．ハードウェア構成〕
また、上述した実施形態に係る情報処理装置１００や端末装置１０は、例えば図８に示すような構成のコンピュータ１０００によって実現される。以下、情報処理装置１００を例に挙げて説明する。図８は、ハードウェア構成の一例を示す図である。コンピュータ１０００は、出力装置１０１０、入力装置１０２０と接続され、演算装置１０３０、一次記憶装置１０４０、二次記憶装置１０５０、出力Ｉ／Ｆ（Interface）１０６０、入力Ｉ／Ｆ１０７０、ネットワークＩ／Ｆ１０８０がバス１０９０により接続された形態を有する。

演算装置１０３０は、一次記憶装置１０４０や二次記憶装置１０５０に格納されたプログラムや入力装置１０２０から読み出したプログラム等に基づいて動作し、各種の処理を実行する。演算装置１０３０は、例えばＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等により実現される。

一次記憶装置１０４０は、ＲＡＭ（Random Access Memory）等、演算装置１０３０が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置１０５０は、演算装置１０３０が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ＲＯＭ（Read Only Memory）、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、フラッシュメモリ等により実現される。二次記憶装置１０５０は、内蔵ストレージであってもよいし、外付けストレージであってもよい。また、二次記憶装置１０５０は、ＵＳＢメモリやＳＤ（Secure Digital）メモリカード等の取り外し可能な記憶媒体であってもよい。また、二次記憶装置１０５０は、クラウドストレージ（オンラインストレージ）やＮＡＳ（Network Attached Storage）、ファイルサーバ等であってもよい。

出力Ｉ／Ｆ１０６０は、ディスプレイ、プロジェクタ、及びプリンタ等といった各種の情報を出力する出力装置１０１０に対し、出力対象となる情報を送信するためのインターフェイスであり、例えば、ＵＳＢ（Universal Serial Bus）やＤＶＩ（Digital Visual Interface）、ＨＤＭＩ（登録商標）（High Definition Multimedia Interface）といった規格のコネクタにより実現される。また、入力Ｉ／Ｆ１０７０は、マウス、キーボード、キーパッド、ボタン、及びスキャナ等といった各種の入力装置１０２０から情報を受信するためのインターフェイスであり、例えば、ＵＳＢ等により実現される。

また、出力Ｉ／Ｆ１０６０及び入力Ｉ／Ｆ１０７０はそれぞれ出力装置１０１０及び入力装置１０２０と無線で接続してもよい。すなわち、出力装置１０１０及び入力装置１０２０は、ワイヤレス機器であってもよい。

また、出力装置１０１０及び入力装置１０２０は、タッチパネルのように一体化していてもよい。この場合、出力Ｉ／Ｆ１０６０及び入力Ｉ／Ｆ１０７０も、入出力Ｉ／Ｆとして一体化していてもよい。

なお、入力装置１０２０は、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、又は半導体メモリ等から情報を読み出す装置であってもよい。

ネットワークＩ／Ｆ１０８０は、ネットワークＮを介して他の機器からデータを受信して演算装置１０３０へ送り、また、ネットワークＮを介して演算装置１０３０が生成したデータを他の機器へ送信する。

演算装置１０３０は、出力Ｉ／Ｆ１０６０や入力Ｉ／Ｆ１０７０を介して、出力装置１０１０や入力装置１０２０の制御を行う。例えば、演算装置１０３０は、入力装置１０２０や二次記憶装置１０５０からプログラムを一次記憶装置１０４０上にロードし、ロードしたプログラムを実行する。

例えば、コンピュータ１０００が情報処理装置１００として機能する場合、コンピュータ１０００の演算装置１０３０は、一次記憶装置１０４０上にロードされたプログラムを実行することにより、制御部１３０の機能を実現する。また、コンピュータ１０００の演算装置１０３０は、ネットワークＩ／Ｆ１０８０を介して他の機器から取得したプログラムを一次記憶装置１０４０上にロードし、ロードしたプログラムを実行してもよい。また、コンピュータ１０００の演算装置１０３０は、ネットワークＩ／Ｆ１０８０を介して他の機器と連携し、プログラムの機能やデータ等を他の機器の他のプログラムから呼び出して利用してもよい。

〔６．その他〕
以上、本願の実施形態を説明したが、これら実施形態の内容により本発明が限定されるものではない。また、前述した構成要素には、当業者が容易に想定できるもの、実質的に同一のもの、いわゆる均等の範囲のものが含まれる。さらに、前述した構成要素は適宜組み合わせることが可能である。さらに、前述した実施形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換又は変更を行うことができる。

また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。

例えば、上述した情報処理装置１００は、複数のサーバコンピュータで実現してもよく、また、機能によっては外部のプラットホーム等をＡＰＩ（Application Programming Interface）やネットワークコンピューティング等で呼び出して実現するなど、構成は柔軟に変更できる。

また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

また、上述してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。

１情報処理システム
１００情報処理装置
１２０記憶部
１２１学習用データ記憶部
１２２モデル情報記憶部
１２３コンテンツ情報記憶部
１３０制御部
１３１取得部
１３２生成部
１３３学習部
１３４処理部
１３５提供部
１０端末装置

Claims

所定の種別に該当する文字列である抽出対象文字列を文字情報から抽出するモデルの学習に用いるためのラベルが付された第１文字情報を含む学習用データセットと、前記ラベルが付されていない文字情報である第２文字情報とを取得する取得部と、
前記学習用データセットのうち、前記第２文字情報と類似する前記第１文字情報を類似文字情報として選択し、前記類似文字情報中の前記抽出対象文字列である第１文字列を、前記第２文字情報中の前記抽出対象文字列である第２文字列に変更することにより、前記第２文字列を含み、前記モデルの学習に利用可能な文字情報である変更文字情報を生成する生成部と、
を備えることを特徴とする情報処理装置。
前記取得部は、
所定のコンテンツから抽出された前記第２文字情報を取得する
ことを特徴とする請求項１に記載の情報処理装置。
前記取得部は、
インターネット上で提供される前記所定のコンテンツから抽出された前記第２文字情報を取得する
ことを特徴とする請求項２に記載の情報処理装置。
前記取得部は、
所定の対象を解説する解説コンテンツから抽出された前記第２文字情報を取得する
ことを特徴とする請求項２または請求項３に記載の情報処理装置。
前記取得部は、
前記第１文字列が示す対象とは異なる対象を解説する前記解説コンテンツから抽出された前記第２文字情報を取得する
ことを特徴とする請求項４に記載の情報処理装置。
前記取得部は、
インターネット百科事典内のコンテンツから抽出された前記第２文字情報を取得する
ことを特徴とする請求項２～５のいずれか１項に記載の情報処理装置。
前記生成部は、
前記学習用データセットから、前記第２文字情報との類似度に基づいて前記類似文字情報を選択し、前記類似文字情報中の前記第１文字列を、前記第２文字情報中の前記第２文字列に変更することにより、前記変更文字情報を生成する
ことを特徴とする請求項１～６のいずれか１項に記載の情報処理装置。
前記生成部は、
前記学習用データセットのうち、前記第２文字情報との類似度が最大である前記第１文字情報を前記類似文字情報として選択する
ことを特徴とする請求項７に記載の情報処理装置。
前記生成部は、
前記学習用データセット中の各第１文字情報がベクトル化された第１ベクトルの各々と、前記第２文字情報がベクトル化された第２ベクトルとの類似度に基づいて、前記類似文字情報を選択する
ことを特徴とする請求項７または請求項８に記載の情報処理装置。
前記生成部は、
前記第１文字列が前記所定の種別に該当することを示す種別ラベルを前記第２文字列の種別ラベルとする前記変更文字情報を生成する
ことを特徴とする請求項１～９のいずれか１項に記載の情報処理装置。
前記取得部は、
固有表現に該当する前記抽出対象文字列を文字情報から抽出する前記モデルの学習に用いられる前記学習用データセットを取得し、
前記生成部は、
前記類似文字情報中の固有表現である前記第１文字列を、前記第２文字情報中の固有表現である前記第２文字列に変更することにより、前記変更文字情報を生成する
ことを特徴とする請求項１～１０のいずれか１項に記載の情報処理装置。
前記生成部により生成された前記変更文字情報を用いた機械学習の処理により、前記モデルを学習する学習部、
をさらに備える
ことを特徴とする請求項１～１１のいずれか１項に記載の情報処理装置。
前記学習部は、
文字情報の入力に応じて、当該文字情報に前記抽出対象文字列が含まれる場合、前記抽出対象文字列を出力する前記モデルを学習する
ことを特徴とする請求項１２に記載の情報処理装置。
前記学習部は、
前記変更文字情報から前記第２文字列が抽出されるように前記モデルを学習する
ことを特徴とする請求項１３に記載の情報処理装置。
コンピュータが実行する情報処理方法であって、
所定の種別に該当する文字列である抽出対象文字列を文字情報から抽出するモデルの学習に用いるためのラベルが付された第１文字情報を含む学習用データセットと、前記ラベルが付されていない文字情報である第２文字情報とを取得する取得工程と、
前記学習用データセットのうち、前記第２文字情報と類似する前記第１文字情報を類似文字情報として選択し、前記類似文字情報中の前記抽出対象文字列である第１文字列を、前記第２文字情報中の前記抽出対象文字列である第２文字列に変更することにより、前記第２文字列を含み、前記モデルの学習に利用可能な文字情報である変更文字情報を生成する生成工程と、
を含むことを特徴とする情報処理方法。
所定の種別に該当する文字列である抽出対象文字列を文字情報から抽出するモデルの学習に用いるためのラベルが付された第１文字情報を含む学習用データセットと、前記ラベルが付されていない文字情報である第２文字情報とを取得する取得手順と、
前記学習用データセットのうち、前記第２文字情報と類似する前記第１文字情報を類似文字情報として選択し、前記類似文字情報中の前記抽出対象文字列である第１文字列を、前記第２文字情報中の前記抽出対象文字列である第２文字列に変更することにより、前記第２文字列を含み、前記モデルの学習に利用可能な文字情報である変更文字情報を生成する生成手順と、
をコンピュータに実行させることを特徴とする情報処理プログラム。