JP2023028783A - 情報処理装置、情報処理方法、及び情報処理プログラム - Google Patents
情報処理装置、情報処理方法、及び情報処理プログラム Download PDFInfo
- Publication number
- JP2023028783A JP2023028783A JP2021134681A JP2021134681A JP2023028783A JP 2023028783 A JP2023028783 A JP 2023028783A JP 2021134681 A JP2021134681 A JP 2021134681A JP 2021134681 A JP2021134681 A JP 2021134681A JP 2023028783 A JP2023028783 A JP 2023028783A
- Authority
- JP
- Japan
- Prior art keywords
- information
- character information
- character
- learning
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 190
- 238000003672 processing method Methods 0.000 title claims description 7
- 238000000605 extraction Methods 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims description 51
- 239000013598 vector Substances 0.000 claims description 41
- 238000000034 method Methods 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 23
- 230000014509 gene expression Effects 0.000 claims description 19
- 238000010801 machine learning Methods 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 abstract description 4
- 238000013500 data storage Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 7
- 230000008520 organization Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 101100366082 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) SNF7 gene Proteins 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 101150047375 DID2 gene Proteins 0.000 description 2
- 101001111655 Homo sapiens Retinol dehydrogenase 11 Proteins 0.000 description 2
- 102100023916 Retinol dehydrogenase 11 Human genes 0.000 description 2
- 101100317166 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) VPS24 gene Proteins 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 101150040982 DID4 gene Proteins 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】本願に係る情報処理装置は、取得部と、生成部とを有する。取得部は、所定の種別に該当する文字列である抽出対象文字列を文字情報から抽出するモデルの学習に用いるためのラベルが付された第1文字情報を含む学習用データセットと、ラベルが付されていない文字情報である第2文字情報とを取得する。生成部は、学習用データセットのうち、第2文字情報と類似する第1文字情報を類似文字情報として選択し、類似文字情報中の抽出対象文字列である第1文字列を、第2文字情報中の抽出対象文字列である第2文字列に変更することにより、第2文字列を含み、モデルの学習に利用可能な文字情報である変更文字情報を生成する。
【選択図】図4
Description
〔1.情報処理〕
図1を用いて、実施形態に係る情報処理の一例について説明する。図1は、実施形態に係る情報処理システムによる処理の一例を示す図である。図1では、情報処理装置100が生成した学習用データを用いて固有表現を抽出するモデルM1を生成する場合を一例として説明する。
ここで、図2、3を参照して、図1で説明した内容に関する処理例を説明する。図2は、生成処理の一例を示す図である。図3は、ベクトル変換処理の一例を示す図である。
上述した処理は一例に過ぎず、情報処理システム1は、様々な処理を行ってもよい。例えば、上述した処理では、固有表現を抽出するモデルを学習する場合を示したが、学習されるモデルは、固有表現を抽出するモデルに限られない。例えば、モデルは、入力された記事等のテキストについて、キーワード抽出して、主題や人工物名等を見つけて、ウィキなどのリンクをはるモデルであってもよい。また、例えば、モデルは、人名、クレジットカードの番号等の個人情報のマスキングするために用いるモデルであってもよい。また、キーワード関連の処理を行うためのモデルであれば、任意のモデルが採用可能である。
次に、図4を用いて、実施形態に係る情報処理装置100の構成について説明する。図4は、実施形態に係る情報処理装置100の構成例を示す図である。図4に示すように、情報処理装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、情報処理装置100は、情報処理装置100の管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(例えば、液晶ディスプレイ等)を有してもよい。
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部110は、所定の通信網(ネットワーク)と有線または無線で接続され、端末装置10との間で情報の送受信を行う。
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。実施形態に係る記憶部120は、図4に示すように、学習用データ記憶部121と、モデル情報記憶部122と、コンテンツ情報記憶部123とを有する。
実施形態に係る学習用データ記憶部121は、学習に用いるデータに関する各種情報を記憶する。学習用データ記憶部121は、学習に用いる学習データ(データセット)を記憶する。図5は、実施形態に係る学習用データ記憶部の一例を示す図である。例えば、学習用データ記憶部121は、学習に用いる学習データや精度評価(測定)に用いる評価用データ等の種々のデータに関する各種情報を記憶する。図5に、実施形態に係る学習用データ記憶部121の一例を示す。図5の例では、学習用データ記憶部121は、「データセットID」、「データID」、「データ」、「ラベル」、「日時」といった項目が含まれる。
実施形態に係るモデル情報記憶部122は、モデルに関する情報を記憶する。例えば、モデル情報記憶部122は、学習処理により学習(生成)された学習済みモデル(モデル)の情報(モデルデータ)を記憶する。図6は、実施形態に係るモデル情報記憶部の一例を示す図である。図6に示した例では、モデル情報記憶部122は、「モデルID」、「用途」、「モデルデータ」といった項目が含まれる。
実施形態に係るコンテンツ情報記憶部123は、コンテンツに関する各種情報を記憶する。例えば、コンテンツ情報記憶部123は、第2文字情報の抽出対象となるコンテンツに関する各種情報を記憶する。例えば、コンテンツ情報記憶部123は、インターネット上で提供される所定のコンテンツの情報を記憶する。例えば、コンテンツ情報記憶部123は、所定の対象を解説する解説コンテンツの情報を記憶する。例えば、コンテンツ情報記憶部123は、インターネット百科事典内のコンテンツの情報を記憶する。例えば、コンテンツ情報記憶部123は、インターネット百科事典に関するサービスをユーザに提供するサービス提供装置から受信したコンテンツの情報を記憶する。
図4の説明に戻って、制御部130は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、情報処理装置100内部の記憶装置に記憶されている各種プログラム(情報処理プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部130は、コントローラであり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
取得部131は、通信部110を介して、外部の情報処理装置から各種情報を受信する。取得部131は、端末装置10から各種情報を受信する。取得部131は、端末装置10から受信したラベル付きの訓練データ(文字情報)を学習用データとして記憶部120へ格納する。取得部131は、端末装置10から受信したラベル付き文字情報を、モデルの学習に用いるデータ(学習データ)として学習用データ記憶部121に登録する。また、取得部131は、インターネット百科事典に関するサービスをユーザに提供するサービス提供装置からコンテンツの情報を受信する。取得部131は、サービス提供装置から第2文字情報を受信してもよい。
生成部132は、各種情報を生成する。例えば、生成部132は、記憶部120に記憶された情報(データ)から各種情報(データ)を生成する。生成部132は、生成した情報を記憶部120に登録する。例えば、生成部132は、学習用データ記憶部121や、モデル情報記憶部122や、コンテンツ情報記憶部123等に記憶された情報(データ)から各種情報を生成する。
学習部133は、モデルを学習する。学習部133は、外部の情報処理装置からの情報や記憶部120に記憶された情報に基づいて、各種情報を学習する。学習部133は、学習用データ記憶部121に記憶された情報に基づいて、各種情報を学習する。学習部133は、学習により生成したモデルをモデル情報記憶部122に格納する。
処理部134は、各種の処理を実行する。処理部134は、学習部133により学習されたモデルM1を用いた処理を実行する。処理部134は、文字情報をモデルM1に入力し、モデルM1が出力した文字列を固有表現の文字列とする。例えば、処理部134は、文字情報をモデルM1に入力し、モデルM1が出力した文字列を新語であるとする。
提供部135は、通信部110を介して、外部装置へ情報を送信する。提供部135は、ユーザが利用する端末装置10へ情報提供サービスを提供する。例えば、提供部135は、学習部133により学習されたモデルM1を端末装置10へ送信する。提供部135は、処理部134による処理結果を示す情報を端末装置10へ送信する。
次に、図7を用いて、実施形態に係る情報処理システム1による情報処理の手順について説明する。図7は、実施形態に係る情報処理装置による処理の一例を示すフローチャートである。
上述してきたように、実施形態に係る情報処理装置100は、取得部131と、生成部132とを有する。取得部131は、所定の種別に該当する文字列である抽出対象文字列を文字情報から抽出するモデルの学習に用いるためのラベルが付された第1文字情報を含む学習用データセットと、ラベルが付されていない文字情報である第2文字情報とを取得する。生成部132は、学習用データセットのうち、第2文字情報と類似する第1文字情報を類似文字情報として選択し、類似文字情報中の抽出対象文字列である第1文字列を、第2文字情報中の抽出対象文字列である第2文字列に変更することにより、第2文字列を含み、モデルの学習に利用可能な文字情報である変更文字情報を生成する。
また、上述した実施形態に係る情報処理装置100や端末装置10は、例えば図8に示すような構成のコンピュータ1000によって実現される。以下、情報処理装置100を例に挙げて説明する。図8は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力I/F(Interface)1060、入力I/F1070、ネットワークI/F1080がバス1090により接続された形態を有する。
以上、本願の実施形態を説明したが、これら実施形態の内容により本発明が限定されるものではない。また、前述した構成要素には、当業者が容易に想定できるもの、実質的に同一のもの、いわゆる均等の範囲のものが含まれる。さらに、前述した構成要素は適宜組み合わせることが可能である。さらに、前述した実施形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換又は変更を行うことができる。
100 情報処理装置
120 記憶部
121 学習用データ記憶部
122 モデル情報記憶部
123 コンテンツ情報記憶部
130 制御部
131 取得部
132 生成部
133 学習部
134 処理部
135 提供部
10 端末装置
Claims (16)
- 所定の種別に該当する文字列である抽出対象文字列を文字情報から抽出するモデルの学習に用いるためのラベルが付された第1文字情報を含む学習用データセットと、前記ラベルが付されていない文字情報である第2文字情報とを取得する取得部と、
前記学習用データセットのうち、前記第2文字情報と類似する前記第1文字情報を類似文字情報として選択し、前記類似文字情報中の前記抽出対象文字列である第1文字列を、前記第2文字情報中の前記抽出対象文字列である第2文字列に変更することにより、前記第2文字列を含み、前記モデルの学習に利用可能な文字情報である変更文字情報を生成する生成部と、
を備えることを特徴とする情報処理装置。 - 前記取得部は、
所定のコンテンツから抽出された前記第2文字情報を取得する
ことを特徴とする請求項1に記載の情報処理装置。 - 前記取得部は、
インターネット上で提供される前記所定のコンテンツから抽出された前記第2文字情報を取得する
ことを特徴とする請求項2に記載の情報処理装置。 - 前記取得部は、
所定の対象を解説する解説コンテンツから抽出された前記第2文字情報を取得する
ことを特徴とする請求項2または請求項3に記載の情報処理装置。 - 前記取得部は、
前記第1文字列が示す対象とは異なる対象を解説する前記解説コンテンツから抽出された前記第2文字情報を取得する
ことを特徴とする請求項4に記載の情報処理装置。 - 前記取得部は、
インターネット百科事典内のコンテンツから抽出された前記第2文字情報を取得する
ことを特徴とする請求項2~5のいずれか1項に記載の情報処理装置。 - 前記生成部は、
前記学習用データセットから、前記第2文字情報との類似度に基づいて前記類似文字情報を選択し、前記類似文字情報中の前記第1文字列を、前記第2文字情報中の前記第2文字列に変更することにより、前記変更文字情報を生成する
ことを特徴とする請求項1~6のいずれか1項に記載の情報処理装置。 - 前記生成部は、
前記学習用データセットのうち、前記第2文字情報との類似度が最大である前記第1文字情報を前記類似文字情報として選択する
ことを特徴とする請求項7に記載の情報処理装置。 - 前記生成部は、
前記学習用データセット中の各第1文字情報がベクトル化された第1ベクトルの各々と、前記第2文字情報がベクトル化された第2ベクトルとの類似度に基づいて、前記類似文字情報を選択する
ことを特徴とする請求項7または請求項8に記載の情報処理装置。 - 前記生成部は、
前記第1文字列が前記所定の種別に該当することを示す種別ラベルを前記第2文字列の種別ラベルとする前記変更文字情報を生成する
ことを特徴とする請求項1~9のいずれか1項に記載の情報処理装置。 - 前記取得部は、
固有表現に該当する前記抽出対象文字列を文字情報から抽出する前記モデルの学習に用いられる前記学習用データセットを取得し、
前記生成部は、
前記類似文字情報中の固有表現である前記第1文字列を、前記第2文字情報中の固有表現である前記第2文字列に変更することにより、前記変更文字情報を生成する
ことを特徴とする請求項1~10のいずれか1項に記載の情報処理装置。 - 前記生成部により生成された前記変更文字情報を用いた機械学習の処理により、前記モデルを学習する学習部、
をさらに備える
ことを特徴とする請求項1~11のいずれか1項に記載の情報処理装置。 - 前記学習部は、
文字情報の入力に応じて、当該文字情報に前記抽出対象文字列が含まれる場合、前記抽出対象文字列を出力する前記モデルを学習する
ことを特徴とする請求項12に記載の情報処理装置。 - 前記学習部は、
前記変更文字情報から前記第2文字列が抽出されるように前記モデルを学習する
ことを特徴とする請求項13に記載の情報処理装置。 - コンピュータが実行する情報処理方法であって、
所定の種別に該当する文字列である抽出対象文字列を文字情報から抽出するモデルの学習に用いるためのラベルが付された第1文字情報を含む学習用データセットと、前記ラベルが付されていない文字情報である第2文字情報とを取得する取得工程と、
前記学習用データセットのうち、前記第2文字情報と類似する前記第1文字情報を類似文字情報として選択し、前記類似文字情報中の前記抽出対象文字列である第1文字列を、前記第2文字情報中の前記抽出対象文字列である第2文字列に変更することにより、前記第2文字列を含み、前記モデルの学習に利用可能な文字情報である変更文字情報を生成する生成工程と、
を含むことを特徴とする情報処理方法。 - 所定の種別に該当する文字列である抽出対象文字列を文字情報から抽出するモデルの学習に用いるためのラベルが付された第1文字情報を含む学習用データセットと、前記ラベルが付されていない文字情報である第2文字情報とを取得する取得手順と、
前記学習用データセットのうち、前記第2文字情報と類似する前記第1文字情報を類似文字情報として選択し、前記類似文字情報中の前記抽出対象文字列である第1文字列を、前記第2文字情報中の前記抽出対象文字列である第2文字列に変更することにより、前記第2文字列を含み、前記モデルの学習に利用可能な文字情報である変更文字情報を生成する生成手順と、
をコンピュータに実行させることを特徴とする情報処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021134681A JP2023028783A (ja) | 2021-08-20 | 2021-08-20 | 情報処理装置、情報処理方法、及び情報処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021134681A JP2023028783A (ja) | 2021-08-20 | 2021-08-20 | 情報処理装置、情報処理方法、及び情報処理プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023028783A true JP2023028783A (ja) | 2023-03-03 |
Family
ID=85331195
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021134681A Pending JP2023028783A (ja) | 2021-08-20 | 2021-08-20 | 情報処理装置、情報処理方法、及び情報処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023028783A (ja) |
-
2021
- 2021-08-20 JP JP2021134681A patent/JP2023028783A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210406465A1 (en) | Stylistic Text Rewriting for a Target Author | |
Tuarob et al. | Automated discovery of lead users and latent product features by mining large scale social media networks | |
CN102426607B (zh) | 可扩展搜索项建议引擎 | |
JP6745384B2 (ja) | 情報をプッシュするための方法及び装置 | |
CN109416705A (zh) | 利用语料库中可用的信息用于数据解析和预测 | |
CN111680159A (zh) | 数据处理方法、装置及电子设备 | |
CN111666766B (zh) | 数据处理方法、装置和设备 | |
US11080073B2 (en) | Computerized task guidance across devices and applications | |
CN110929523B (zh) | 共指解析和实体链接 | |
US10838993B2 (en) | Augment politeness in question answer systems | |
US11574123B2 (en) | Content analysis utilizing general knowledge base | |
JP2015075993A (ja) | 情報処理装置及び情報処理プログラム | |
US11531927B2 (en) | Categorical data transformation and clustering for machine learning using natural language processing | |
KR101985900B1 (ko) | 텍스트 콘텐츠 작성자의 메타정보를 추론하는 방법 및 컴퓨터 프로그램 | |
US11422798B2 (en) | Context-based word embedding for programming artifacts | |
JP6775366B2 (ja) | 選択装置、および選択方法 | |
US11714637B1 (en) | User support content generation | |
Shah et al. | Simplifying the classification of app reviews using only lexical features | |
JP2017151678A (ja) | トピック推定装置、トピック推定方法、およびプログラム | |
JP6680655B2 (ja) | 学習装置および学習方法 | |
Adamu et al. | A framework for enhancing the retrieval of UML diagrams | |
JP2023028783A (ja) | 情報処理装置、情報処理方法、及び情報処理プログラム | |
Wu et al. | Developing EMR-based algorithms to Identify hospital adverse events for health system performance evaluation and improvement: Study protocol | |
JP2021162917A (ja) | 情報処理装置及び情報処理方法 | |
JP7407139B2 (ja) | 生成装置、生成方法及び生成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230315 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20231026 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231212 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231219 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240205 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240528 |