JP6952996B2 - 情報処理システム、情報処理方法及びプログラム - Google Patents
情報処理システム、情報処理方法及びプログラム Download PDFInfo
- Publication number
- JP6952996B2 JP6952996B2 JP2017182215A JP2017182215A JP6952996B2 JP 6952996 B2 JP6952996 B2 JP 6952996B2 JP 2017182215 A JP2017182215 A JP 2017182215A JP 2017182215 A JP2017182215 A JP 2017182215A JP 6952996 B2 JP6952996 B2 JP 6952996B2
- Authority
- JP
- Japan
- Prior art keywords
- information processing
- image
- processing system
- learning
- texture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Description
第1画像に対する質感を音象徴語で被験者が回答した結果を入力して畳み込みニューラルネットワークによって学習を行う学習部と、
第2画像を取得する取得部と、
前記学習部による学習結果に基づいて、前記第2画像の質感を示す音韻の要素の出現確率を出力する出力部と
を含む。
図1は、情報処理システムの全体構成例を示す概要図である。図示するように、情報処理システム1は、1以上の情報処理装置を有する。具体的には、情報処理システム1は、情報処理装置の例であるサーバ2と、情報処理装置の例であるPC(Personal Computer)3とを有する。
情報処理システム1は、画像が示す被写体の質感を音韻の要素に基づいて表現する。
図2は、情報処理装置のハードウェア構成例を示すブロック図である。例えば、サーバ2及びPC3は、同一のハードウェア構成である。以下、サーバ2を例に説明し、PC3の説明を省略する。
まず、情報処理システム1は、学習処理によって学習データを生成し、データベースLDBを構築する。そして、データベースLDBが構築された後、情報処理システム1は、データベースLDBを用いて実行処理を行う。例えば、以下のような学習処理が情報処理システム1によって行われる。
y=a・x+b (1)
上記(1)式では、「x」が第1画像IMG1となる。そして、上記(1)式では、「a」が重みのパラメータ、すなわち、行列となる。さらに、上記(1)式では、「b」がバイアスのパラメータであり、「y」が出力値となる。上記(1)式が用いられる場合では、例えば、「a」と、「b」とが、学習結果として、各層に保存される。
図4は、学習処理の処理結果例を示す図である。例えば、学習処理が行われると、図示するような学習データが得られる。
上記のような学習処理によって、データベースLDBが構築された後、すなわち、いわゆる学習フェーズが完了した後、以下のような実行処理が行われる。
上記(1)式のように学習が行われる場合には、学習済みモデルでは、出力関数をシグモイド(sigmoid)関数とする。そのため、この例では、第2画像IMG2における音韻の要素が、図4に示す「出現確率」のように、確率で出力される。
以上のような音韻の要素の出現確率OUTがステップS12で出力されると、例えば、ステップS13では、情報処理システム1は、以下のように音象徴語を生成できる。
図9は、音韻の要素の組み合わせ例を示す図である。図示する例では、縦軸と、横軸の一部とが「子音」の要素であり、横軸が「母音」の要素である。
比較対象として、被験者に、第2画像IMG2となる「The KTH−TIPS and KTH−TIPS2 image databases」(http://www.nada.kth.se/cvap/databases/kth-tips/)にある100枚の画像を表示して、被験者が想起するオノマトペを回答してもらった。
本発明に係る実施形態は、上記の情報処理方法によって生成される音象徴語を用いて、質感を発話するロボット等に適用されてもよい。
ON1、ON2 オノマトペ
OUT 音韻の要素の出現確率
F1 学習部
F2 取得部
F3 出力部
F4 生成部
IMG1 第1画像
IMG2 第2画像
Claims (7)
- 第1画像に対する質感を音象徴語で被験者が回答した結果を入力して畳み込みニューラルネットワークによって学習を行う学習部と、
第2画像を取得する取得部と、
前記学習部による学習結果に基づいて、前記第2画像の質感を示す音韻の要素の出現確率を出力する出力部と
を含む情報処理システム。 - 前記音韻の要素を組み合わせて、音象徴語を生成する生成部を更に含む請求項1に記載の情報処理システム。
- 前記音韻の要素は、母音、子音、反復及び特殊音である請求項1又は2に記載の情報処理システム。
- 前記第1画像は、FMD画像及び前記FMD画像の一部を切り出した部分画像を含む請求項1乃至3のいずれか1項に記載の情報処理システム。
- 前記学習部は、深層畳み込みニューラルネットワークによって学習を行う請求項1乃至4のいずれか1項に記載の情報処理システム。
- 情報処理システムが行う情報処理方法であって、
情報処理システムが、第1画像に対する質感を音象徴語で被験者が回答した結果を入力して畳み込みニューラルネットワークによって学習を行う学習手順と、
情報処理システムが、第2画像を取得する取得手順と、
情報処理システムが、前記学習手順による学習結果に基づいて、前記第2画像の質感を示す音韻の要素の出現確率を出力する出力手順と
を含む情報処理方法。 - コンピュータに情報処理方法を実行させるためのプログラムであって、
コンピュータが、第1画像に対する質感を音象徴語で被験者が回答した結果を入力して畳み込みニューラルネットワークによって学習を行う学習手順と、
コンピュータが、第2画像を取得する取得手順と、
コンピュータが、前記学習手順による学習結果に基づいて、前記第2画像の質感を示す音韻の要素の出現確率を出力する出力手順と
を実行させるためのプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017100317 | 2017-04-28 | ||
JP2017100317 | 2017-04-28 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018190371A JP2018190371A (ja) | 2018-11-29 |
JP6952996B2 true JP6952996B2 (ja) | 2021-10-27 |
Family
ID=64478798
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017182215A Active JP6952996B2 (ja) | 2017-04-28 | 2017-09-22 | 情報処理システム、情報処理方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6952996B2 (ja) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3848749B2 (ja) * | 1997-08-13 | 2006-11-22 | 松下電器産業株式会社 | 画像検索装置 |
US10388271B2 (en) * | 2015-09-10 | 2019-08-20 | The University Of Electro-Communications | Sound symbolism word/physical feature information providing apparatus and sound symbolism word/physical feature information providing method |
-
2017
- 2017-09-22 JP JP2017182215A patent/JP6952996B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018190371A (ja) | 2018-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ariav et al. | An end-to-end multimodal voice activity detection using wavenet encoder and residual networks | |
CN110136693B (zh) | 用于使用少量样本进行神经话音克隆的系统和方法 | |
EP3404578B1 (en) | Sensor transformation attention network (stan) model | |
Mesbah et al. | Lip reading with Hahn convolutional neural networks | |
EP4006902B1 (en) | Inter-channel feature extraction for audio separation | |
Latif et al. | Unsupervised adversarial domain adaptation for cross-lingual speech emotion recognition | |
US11693854B2 (en) | Question responding apparatus, question responding method and program | |
Chen et al. | Generative adversarial networks for unpaired voice transformation on impaired speech | |
CN108563622B (zh) | 一种具有风格多样性的绝句生成方法及装置 | |
Ramanarayanan et al. | Spatio-temporal articulatory movement primitives during speech production: Extraction, interpretation, and validation | |
Pandey et al. | Liptype: A silent speech recognizer augmented with an independent repair model | |
CN111967334B (zh) | 一种人体意图识别方法、系统以及存储介质 | |
Jackson et al. | Statistical identification of articulation constraints in the production of speech | |
KR20210044559A (ko) | 출력 토큰 결정 방법 및 장치 | |
Agrawal et al. | Multimodal personality recognition using cross-attention transformer and behaviour encoding | |
Al-Talabani et al. | Emotion recognition from speech: tools and challenges | |
Vaz et al. | Convex Hull Convolutive Non-Negative Matrix Factorization for Uncovering Temporal Patterns in Multivariate Time-Series Data. | |
CN116306612A (zh) | 一种词句生成方法及相关设备 | |
JP2015175859A (ja) | パターン認識装置、パターン認識方法及びパターン認識プログラム | |
JP6952996B2 (ja) | 情報処理システム、情報処理方法及びプログラム | |
Liu et al. | Cmri2spec: Cine MRI sequence to spectrogram synthesis via a pairwise heterogeneous translator | |
Mattos et al. | Towards view-independent viseme recognition based on CNNs and synthetic data | |
Goutsu et al. | Multi-modal gesture recognition using integrated model of motion, audio and video | |
Fang et al. | Improving Eye Motion Sequence Recognition Using Electrooculography Based on Context‐Dependent HMM | |
JP7411149B2 (ja) | 学習装置、推定装置、学習方法、推定方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200817 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210820 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210914 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210921 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6952996 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |