JP2020107085A - 学習装置、妥当性判定装置、学習方法、妥当性判定方法、学習プログラム、及び妥当性判定プログラム - Google Patents
学習装置、妥当性判定装置、学習方法、妥当性判定方法、学習プログラム、及び妥当性判定プログラム Download PDFInfo
- Publication number
- JP2020107085A JP2020107085A JP2018245365A JP2018245365A JP2020107085A JP 2020107085 A JP2020107085 A JP 2020107085A JP 2018245365 A JP2018245365 A JP 2018245365A JP 2018245365 A JP2018245365 A JP 2018245365A JP 2020107085 A JP2020107085 A JP 2020107085A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- information
- text
- validity
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
[1−1.妥当性判定装置の構成]
先ず、妥当性判定装置1の構成について、図1を用いて説明する。図1は、本実施形態に係る妥当性判定装置1の概要構成の一例を示すブロック図である。図1に示すように、妥当性判定装置1は、システム制御部11と、システムバス12と、入出力インターフェース13と、記憶部14と、通信部15と、入力部16と、表示部17と、GPU(Graphics Processing Unit)18を備えている。システム制御部11と入出力インターフェース13とは、システムバス12を介して接続されている。妥当性判定装置1は、例えばサーバ装置であってもよいし、パーソナルコンピュータであってもよい。
次に、図2乃至図5を用いて、システム制御部11及びGPU18の機能概要について説明する。図2は、本実施形態に係る妥当性判定装置1のシステム制御部11及びGPU18の機能ブロックの一例を示す図である。システム制御部11及びGPU18は、CPU11aが、記憶部14に記憶されているプログラムに含まれる各種コード等を読み出し実行することにより、図2に示すように、訓練データ取得部111、モデル生成部112、モデル読み出し部113、判定対象データ取得部114、妥当性情報出力部115等として機能する。
訓練データ取得部111は、複数の訓練データを記憶部14から取得する。各訓練データは、1以上の単語情報、及び1以上の品詞情報を含む。1以上の単語情報は、テキストを構成する1以上の単語をそれぞれ示す。例えば、アンケート、テーマ、課題等に対して作成されたテキストについて訓練データが準備される場合、アンケートの一の質問、一のテーマ、一の課題等のみについて作成された複数のテキストから、複数の訓練データが作成されてもよい。或いは、複数の質問、複数のテーマ、複数の課題等について作成された複数のテキストから、複数の訓練データが作成されてもよい。1以上の品詞情報は、テキストを構成する1以上の単語それぞれの品詞を示す。形態素解析によりテキストから単語が抽出されるとともに、各単語の品詞が特定される。単語情報及び品詞情報は、例えばone-hotベクトルである。単語情報の並び順及び品詞情報の並び順は、テキスト内の単語の並び順に一致する。全訓練データ間で単語情報及び品詞情報の数が一致するように、必要に応じてパディングが行われる。従って、テキストが一の単語のみで構成される場合であっても、実際には複数の単語情報及び複数の品詞情報が生成される。形態素解析、one-hotベクトル化及びパディングは、訓練データ取得部111により行われてもよいし、他のコンピュータにより行われて予め記憶部14に記憶されてもよい。
モデル読み出し部113は、記憶部14に記憶されたモデル2を読み出して、RAM14c又はGPU18に接続されたVRAMにロードする。
次に、妥当性判定装置1の動作について、図6及び図7を用いて説明する。図6は、妥当性判定装置1のシステム制御部11及びGPU18による学習処理の一例を示すフローチャートである。モデル生成用のプログラムに従って、システム制御部11及びGPU18は学習処理を実行する。図6に示すように、訓練データ取得部111は、訓練データとしての複数のテキストと、各テキストに対応する妥当性ラベルを記憶部14から取得する(ステップS11)。次いで、訓練データ取得部111は、形態素解析により、各テキストを構成する単語を抽出し、抽出された各単語の品詞を特定する。そして、訓練データ取得部111は、各テキストについて1以上の単語情報及び1以上の品詞情報を生成する(ステップS12)。次いで、モデル生成部112は、単語情報、品詞情報及び妥当性ラベルを含む複数の訓練データを用いた学習により、モデル2を生成する(ステップS13)。例えば、モデル生成部112は、モデル2となる畳み込みニューラルネットワークに単語情報及び品詞情報を入力して、このネットワーク内の各層における演算処理を実行する。モデル生成部112は、各テキストの妥当性を計算し、妥当性情報と妥当性ラベルとを比較して、誤差逆伝搬により各層の重み及びバイアスを更新する。モデル生成部112は、例えばエポック数が所定数に達したとき等に学習を終了させて、モデル2を生成する。モデル生成部112は、生成されたモデル2を記憶部14に記憶させて(ステップS14)、学習処理を終了させる。
次に、図8及び図9を用いて第2実施形態について説明する。学習の際、モデル生成部112は、単語特徴ベクトルに対する品詞情報の関連付けの別の例として、単語特徴二次元配列と品詞特徴二次元配列とを連結してなる特徴二次元配列を畳み込み層に入力してもよい。
次に、図10及び図11を用いて第3実施形態について説明する。学習の際、モデル生成部112は、単語特徴ベクトルに対する品詞情報の関連付けの更に別の例として、テキストを構成する1以上の単語の品詞それぞれを示す一の数値を生成し、各品詞の数値を、1以上の単語特徴ベクトルのうちその品詞に対応する単語の単語特徴ベクトルに付加して、二次元配列を畳み込み層に入力してもよい。
次に、図12乃至図14を用いて第4実施形態について説明する。訓練データ取得部111は、テキストを構成する1以上の単語それぞれについて、所定の品詞体系により階層化された複数の品詞を示す複数の品詞情報を含む訓練データを取得してもよい。階層化された品詞において、下位の品詞は、上位の品詞を分けた複数の品詞分類のうち、対象の単語に対応する品詞分類である。品詞の階層の数は、2以上であればよい。日本語の場合、品詞体系は、例えばIPA(Information-technology Promotion Agency)品詞体系であってもよい。
次に、図15及び図16を用いて第5実施形態について説明する。訓練データ取得部111は、テキストに示されることが要求される内容の種類を示す要求内容種別を更に含む訓練データを取得してもよい。アンケートにおける質問、テーマ、課題等の内容に応じて、要求される内容は様々である。例えば、アンケートの場合、要求内容種別は、アンケートにおける質問で要求される回答の種類を示すアンケート種別であってもよい。アンケート種別の例として、理由を答えさせるもの、或る事物に対する純粋想起について答えさせるもの、印象を答えさせるもの、ポジティブなことについて答えさせるもの、ネガティブなことについて答えさせるもの、名詞で答えさせるもの等が挙げられる。各テキストは、一の要求内容種別のみに該当してもよいし、複数の要求内容種別に該当してもよい。
次に、図17及び図18を用いて第6実施形態について説明する。訓練データ取得部111は、如何なる内容がテキストに示されることが要求されるかを示す要求内容テキストを構成する1以上の単語を示す1以上の要求内容単語情報と、要求内容テキストを構成する1以上の単語の品詞を示す1以上の要求内容品詞情報と、を更に含む訓練データを取得してもよい。要求内容テキストは、例えばアンケートの質問、テーマ、課題等を示すテキストある。
次に、図19及び図20を用いて第7実施形態について説明する。訓練データ取得部111は、テキストを構成する1以上の単語それぞれの文字数を示す1以上の文字数情報を更に含む訓練データを取得してもよい。訓練データ取得部111が、各単語の文字数をカウントして文字数情報を生成してもよいし、予め記憶部14に文字数情報が記憶されていてもよい。
次に、図21及び図22を用いて第8実施形態について説明する。訓練データ取得部111は、テキストを構成する1以上の単語それぞれに含まれる文字の種類を示す1以上の文字種数情報を更に含む訓練データを取得してもよい。訓練データ取得部111が、各単語に含まれる文字の種類を特定して文字種情報を生成してもよいし、予め記憶部14に文字種情報が記憶されていてもよい。例えば、日本語の場合、文字種情報は、漢字を含むか否か、平仮名を含むか否か、片仮名を含むか否か、ローマ字を含むか否か、数字を含むか否か等であってもよい。訓練データ取得部111は、テキストを構成する1以上の単語それぞれについて、複数の文字種情報を取得してもよい。
11 システム制御部
12 システムバス
13 入出力インターフェース
14 記憶部
15 通信部
16 入力部
17 表示部
18 GPU
111 訓練データ取得部
112 モデル生成部
113 モデル読み出し部
114 判定対象データ取得部
115 妥当性情報出力部
2 モデル
21、21−1〜4、21−6〜21−8 変換部
22、22−2 特徴抽出部
23、23−5 判定部
205、212 畳み込み層
Claims (17)
- 第1テキストを構成する1以上の単語を示す1以上の単語情報と、前記1以上の単語の品詞を示す1以上の品詞情報と、をそれぞれ含む複数の訓練データを記憶する記憶手段から、前記複数の訓練データを取得する訓練データ取得手段と、
前記取得された複数の訓練データからの機械学習により、所与の第2テキストの妥当性を示す妥当性情報を出力するモデルを生成するモデル生成手段と、
を備えることを特徴とする学習装置。 - 前記複数の訓練データそれぞれについて、前記1以上の単語情報から、前記1以上の単語それぞれの特徴を示す1以上の単語特徴ベクトルを含む二次元配列単語情報を生成する特徴情報生成手段を更に備え、
前記モデル生成手段は、前記1以上の品詞情報それぞれを、前記1以上の単語特徴ベクトルのうち該品詞情報により示される品詞に対応する単語の単語特徴ベクトルに関連付けた状態で、前記二次元配列単語情報及び前記1以上の品詞情報を畳み込み層に入力して前記機械学習させることにより、前記モデルを生成することを特徴とする請求項1に記載の学習装置。 - 前記特徴情報生成手段は、更に、前記1以上の品詞情報から、前記1以上の品詞それぞれの特徴を示す1以上の品詞特徴ベクトルを含む二次元配列品詞情報を生成し、
前記モデル生成手段は、前記二次元配列単語情報と前記二次元配列品詞情報とを重ねてなる三次元配列情報を前記畳み込み層に入力することを特徴とする請求項2に記載の学習装置。 - 前記特徴情報生成手段は、更に、前記1以上の品詞情報から、前記1以上の品詞それぞれの特徴を示す1以上の品詞特徴ベクトルを含む二次元配列品詞情報を生成し、
前記モデル生成手段は、前記二次元配列単語情報と前記二次元配列品詞情報とを連結してなる二次元配列情報を前記畳み込み層に入力することを特徴とする請求項2に記載の学習装置。 - 前記モデル生成手段は、前記1以上の品詞それぞれを示す数値を、前記1以上の単語特徴ベクトルのうち該品詞に対応する単語の単語特徴ベクトルに付加して、前記二次元配列単語情報を前記畳み込み層に入力することを特徴とする請求項2に記載の学習装置。
- 前記複数の訓練データそれぞれは、前記1以上の単語それぞれについて、所定の品詞体系により階層化された複数の品詞を示す複数の前記品詞情報を含むことを特徴とする請求項1乃至5の何れか一項に記載の学習装置。
- 前記複数の訓練データそれぞれは、如何なる種類の内容が前記第1テキストに示されることが要求されているかを示す種類情報を更に含むことを特徴とする請求項1乃至6の何れか一項に記載の学習装置。
- 前記複数の訓練データそれぞれは、如何なる内容が前記第1テキストに示されることが要求されるかを示す第3テキストを構成する1以上の第2単語を示す1以上の第2単語情報と、前記1以上の第2単語の品詞を示す1以上の第2品詞情報と、を更に含むことを特徴とする請求項1乃至7の何れか一項に記載の学習装置。
- 前記複数の訓練データそれぞれは、前記1以上の単語それぞれの文字数を示す1以上の文字数情報を更に含むことを特徴とする請求項1乃至8の何れか一項に記載の学習装置。
- 前記複数の訓練データそれぞれは、前記1以上の単語それぞれに含まれる文字の種類を示す1以上の文字種情報を更に含むことを特徴とする請求項1乃至9の何れか一項に記載の学習装置。
- 前記第1テキストは、アンケートにおける質問に対する回答を示し、
前記生成されるモデルは、所与のアンケートにおける質問に対する回答を示すものとしての前記第2テキストの妥当性を示す前記妥当性情報を出力することを特徴とする請求項1乃至10の何れか一項に記載の学習装置。 - 前記複数の訓練データそれぞれは、前記第1テキストの妥当性を示すラベルを更に含むことを特徴とする請求項1乃至11の何れか一項に記載の学習装置。
- 請求項1乃至12の何れか一項に記載の学習装置により生成されたモデルを記憶するモデル記憶手段から、前記モデルを読み出す読み出し手段と、
所与のテキストを構成する1以上の単語を示す1以上の判定単語情報と、前記1以上の単語の品詞を示す1以上の判定品詞情報と、を取得するテキスト情報取得手段と、
前記取得された1以上の判定単語情報及び1以上の判定品詞情報を、前記読み出されたモデルに入力することにより、前記所与のテキストの妥当性を示す妥当性情報を出力する出力手段と、
を備えることを特徴とする妥当性判定装置。 - コンピュータにより実行される学習方法において、
第1テキストを構成する1以上の単語を示す1以上の単語情報と、前記1以上の単語の品詞を示す1以上の品詞情報と、をそれぞれ含む複数の訓練データを記憶する記憶手段から、前記複数の訓練データを取得する訓練データ取得ステップと、
前記取得された複数の訓練データからの機械学習により、所与の第2テキストの妥当性を示す妥当性情報を出力するモデルを生成するモデル生成ステップと、
を含むことを特徴とする学習方法。 - コンピュータにより実行される妥当性判定方法において、
請求項1乃至12の何れか一項に記載の学習装置により生成されたモデルを記憶するモデル記憶手段から、前記モデルを読み出す読み出しステップと、
所与のテキストを構成する1以上の単語を示す1以上の判定単語情報と、前記1以上の単語の品詞を示す1以上の判定品詞情報と、を取得するテキスト情報取得ステップと、
前記取得された1以上の判定単語情報及び1以上の判定品詞情報を、前記読み出されたモデルに入力することにより、前記所与のテキストの妥当性を示す妥当性情報を出力する出力ステップと、
を含むことを特徴とする妥当性判定方法。 - コンピュータを、
第1テキストを構成する1以上の単語を示す1以上の単語情報と、前記1以上の単語の品詞を示す1以上の品詞情報と、をそれぞれ含む複数の訓練データを記憶する記憶手段から、前記複数の訓練データを取得する訓練データ取得手段と、
前記取得された複数の訓練データからの機械学習により、所与の第2テキストの妥当性を示す妥当性情報を出力するモデルを生成するモデル生成手段と、
として機能させることを特徴とする学習プログラム。 - コンピュータを、
請求項1乃至12の何れか一項に記載の学習装置により生成されたモデルを記憶するモデル記憶手段から、前記モデルを読み出す読み出し手段と、
所与のテキストを構成する1以上の単語を示す1以上の判定単語情報と、前記1以上の単語の品詞を示す1以上の判定品詞情報と、を取得するテキスト情報取得手段と、
前記取得された1以上の判定単語情報及び1以上の判定品詞情報を、前記読み出されたモデルに入力することにより、前記所与のテキストの妥当性を示す妥当性情報を出力する出力手段と、
として機能させることを特徴とする妥当性判定プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018245365A JP6899367B2 (ja) | 2018-12-27 | 2018-12-27 | 学習装置、妥当性判定装置、学習方法、妥当性判定方法、学習プログラム、及び妥当性判定プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018245365A JP6899367B2 (ja) | 2018-12-27 | 2018-12-27 | 学習装置、妥当性判定装置、学習方法、妥当性判定方法、学習プログラム、及び妥当性判定プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020107085A true JP2020107085A (ja) | 2020-07-09 |
JP6899367B2 JP6899367B2 (ja) | 2021-07-07 |
Family
ID=71449170
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018245365A Active JP6899367B2 (ja) | 2018-12-27 | 2018-12-27 | 学習装置、妥当性判定装置、学習方法、妥当性判定方法、学習プログラム、及び妥当性判定プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6899367B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112348158A (zh) * | 2020-11-04 | 2021-02-09 | 重庆大学 | 基于多参数深度分布学习的工业设备状态评估方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040019650A1 (en) * | 2000-01-06 | 2004-01-29 | Auvenshine John Jason | Method, system, and program for filtering content using neural networks |
JP2008084064A (ja) * | 2006-09-28 | 2008-04-10 | National Institute Of Advanced Industrial & Technology | テキスト分類処理方法、テキスト分類処理装置ならびにテキスト分類処理プログラム |
CN106649275A (zh) * | 2016-12-28 | 2017-05-10 | 成都数联铭品科技有限公司 | 基于词性信息和卷积神经网络的关系抽取方法 |
US20170147682A1 (en) * | 2015-11-19 | 2017-05-25 | King Abdulaziz City For Science And Technology | Automated text-evaluation of user generated text |
CN106855853A (zh) * | 2016-12-28 | 2017-06-16 | 成都数联铭品科技有限公司 | 基于深度神经网络的实体关系抽取系统 |
US10162850B1 (en) * | 2018-04-10 | 2018-12-25 | Icertis, Inc. | Clause discovery for validation of documents |
-
2018
- 2018-12-27 JP JP2018245365A patent/JP6899367B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040019650A1 (en) * | 2000-01-06 | 2004-01-29 | Auvenshine John Jason | Method, system, and program for filtering content using neural networks |
JP2008084064A (ja) * | 2006-09-28 | 2008-04-10 | National Institute Of Advanced Industrial & Technology | テキスト分類処理方法、テキスト分類処理装置ならびにテキスト分類処理プログラム |
US20170147682A1 (en) * | 2015-11-19 | 2017-05-25 | King Abdulaziz City For Science And Technology | Automated text-evaluation of user generated text |
CN106649275A (zh) * | 2016-12-28 | 2017-05-10 | 成都数联铭品科技有限公司 | 基于词性信息和卷积神经网络的关系抽取方法 |
CN106855853A (zh) * | 2016-12-28 | 2017-06-16 | 成都数联铭品科技有限公司 | 基于深度神经网络的实体关系抽取系统 |
US10162850B1 (en) * | 2018-04-10 | 2018-12-25 | Icertis, Inc. | Clause discovery for validation of documents |
Non-Patent Citations (1)
Title |
---|
吉見 孔孝 外3名: "音声対話システムにおける条件付確率場に基づく自動応答文選択", 日本音響学会 2008年 春季研究発表会講演論文集CD−ROM [CD−ROM], JPN6020038059, 10 March 2008 (2008-03-10), JP, pages 95 - 96, ISSN: 0004362177 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112348158A (zh) * | 2020-11-04 | 2021-02-09 | 重庆大学 | 基于多参数深度分布学习的工业设备状态评估方法 |
CN112348158B (zh) * | 2020-11-04 | 2024-02-13 | 重庆大学 | 基于多参数深度分布学习的工业设备状态评估方法 |
Also Published As
Publication number | Publication date |
---|---|
JP6899367B2 (ja) | 2021-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Guo | Deep learning approach to text analysis for human emotion detection from big data | |
US9514098B1 (en) | Iteratively learning coreference embeddings of noun phrases using feature representations that include distributed word representations of the noun phrases | |
Dai et al. | Glyph-aware embedding of chinese characters | |
US20220059186A1 (en) | Method and apparatus for detecting molecule binding site, electronic device, and storage medium | |
US20170228654A1 (en) | Methods and systems for base map and inference mapping | |
CN110377702A (zh) | 一种简历信息匹配方法及装置 | |
US20230244849A1 (en) | Content aware font recommendation | |
CN111985243B (zh) | 情感模型的训练方法、情感分析方法、装置及存储介质 | |
Zhao et al. | Contextual self-organizing map: software for constructing semantic representations | |
CN114818691A (zh) | 文章内容的评价方法、装置、设备及介质 | |
Banik et al. | Gru based named entity recognition system for bangla online newspapers | |
CN116541493A (zh) | 基于意图识别的交互应答方法、装置、设备、存储介质 | |
Lee et al. | Gemini pro defeated by gpt-4v: Evidence from education | |
JP2020107085A (ja) | 学習装置、妥当性判定装置、学習方法、妥当性判定方法、学習プログラム、及び妥当性判定プログラム | |
CN116719999A (zh) | 文本相似度检测方法和装置、电子设备及存储介质 | |
Tashu et al. | Deep Learning Architecture for Automatic Essay Scoring | |
CN112948580B (zh) | 一种文本分类的方法和系统 | |
Ruichen | The Basic Principles of Marxism with the Internet as a Carrier | |
Tannert et al. | FlowchartQA: the first large-scale benchmark for reasoning over flowcharts | |
CN111566665B (zh) | 在自然语言处理中应用图像编码识别的装置和方法 | |
CN115878762A (zh) | 课件生成方法、课件显示方法、装置、设备及存储介质 | |
Wang et al. | Using sentence-level neural network models for multiple-choice reading comprehension tasks | |
US20230376687A1 (en) | Multimodal extraction across multiple granularities | |
US11537262B1 (en) | Using attributes for font recommendations | |
Minatani | A Practical CAD Method for the Visually Impaired: A Case of Modeling the Leaning Tower of Pisa |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190701 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201013 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210112 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210525 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210614 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6899367 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |