JP7362074B2 - 情報処理装置、情報処理方法及び情報処理プログラム - Google Patents
情報処理装置、情報処理方法及び情報処理プログラム Download PDFInfo
- Publication number
- JP7362074B2 JP7362074B2 JP2021087721A JP2021087721A JP7362074B2 JP 7362074 B2 JP7362074 B2 JP 7362074B2 JP 2021087721 A JP2021087721 A JP 2021087721A JP 2021087721 A JP2021087721 A JP 2021087721A JP 7362074 B2 JP7362074 B2 JP 7362074B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- concept
- unit
- information processing
- query sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
〔1.はじめに〕
近年、膨大な数の映像コンテンツを効率よく整理、管理するために、画像の内容を自動で分析し、画像の内容を示す文字情報(キャプションやタグなど)を自動で生成・付与する技術が知られている。これにより、文字情報から画像を検索可能とすることができる。ここで、本願明細書における「画像」とは、映像などの動画であってもよいし、映像に含まれる各シーン(静止画)であってもよい。
次に、図2を用いて、実施形態に係る情報処理装置の構成について説明する。図2は、実施形態に係る情報処理装置の構成例を示す図である。図2に示すように、情報処理装置100は、通信部110と、記憶部120と、入力部130と、出力部140と、制御部150とを有する。
通信部110は、例えば、NIC(Network Interface Card)、モデムチップ及びアンテナモジュール等によって実現される。また、通信部110は、ネットワークN(図示略)と有線又は無線で接続される。
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置によって実現される。例えば、記憶部120は、複数の映像または複数の映像それぞれに含まれる各シーンである画像のデータベースである映像プールを記憶する。また、記憶部120は、複数の文章または複数の文章それぞれに含まれる各テキストである文字列のデータベースであるキャプションプールを記憶する。
入力部130は、利用者から各種操作の入力を受け付ける。例えば、入力部130は、タッチパネル機能により表示面(例えば出力部140)を介して利用者からの各種操作を受け付けてもよい。また、入力部130は、情報処理装置100に設けられたボタンや、情報処理装置100に接続されたキーボードやマウスからの各種操作を受け付けてもよい。例えば、入力部130は、利用者からクエリ文の入力を受け付けてよい。また、入力部130は、利用者からクエリ画像の入力を受け付けてよい。
出力部140は、例えば液晶ディスプレイや有機EL(Electro-Luminescence)ディスプレイ等によって実現される表示画面であり、各種情報を表示するための表示装置である。出力部140は、制御部150の制御に従って、各種情報を表示する。なお、情報処理装置100にタッチパネルが採用される場合には、入力部130と出力部140とは一体化される。また、以下の説明では、出力部140を画面と記載する場合がある。
制御部150は、コントローラ(Controller)であり、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等によって、情報処理装置100の内部の記憶装置に記憶されている各種プログラム(情報処理プログラムの一例に相当)がRAM等の記憶領域を作業領域として実行されることにより実現される。図2に示す例では、制御部150は、受付部151と、取得部152と、検索部153と、抽出部154と、生成部155を有する。
受付部151は、利用者によって入力されたクエリ文を受け付ける。例えば、受付部151は、入力部130を介して利用者が入力したクエリ文を受け付ける。ここで、本願明細書におけるクエリ文とは、完全な文章でなくてもよく、例えば、キーワードやフレーズであってもよい。以下では、受付部151が利用者から最初に受け付けたクエリ文を「第1クエリ文」と記載する。例えば、受付部151は、第1クエリ文の一例として、利用者から「person in a car」というフレーズを受け付ける。
取得部152は、映像プールから画像を取得する。例えば、取得部152は、受付部151が第1クエリ文を受け付けると、記憶部120を参照して、複数の映像または複数の映像それぞれに含まれる各シーンである画像を映像プールから取得する。例えば、取得部152は、N個(Nは自然数)の画像#11~画像#1Nを映像プールから取得する。
検索部153は、VSEモデルを用いて、受付部151によって受け付けられた第1クエリ文に関する第1画像を検索する。具体的には、検索部153は、取得部152が画像を取得すると、受付部151によって受け付けられた第1クエリ文と取得部152によって取得された画像の組をVSEモデルに入力する。例えば、検索部153は、第1クエリ文である「person in a car」とN個の画像#11~画像#1Nそれぞれとの組をVSEモデルに入力する。
抽出部154は、第1画像に関するコンセプトを抽出する。具体的には、抽出部154は、コンセプトを含む画像が入力された場合に、画像に含まれるコンセプトと画像とのコンセプト類似度を出力するよう学習された学習済みの機械学習モデルであるコンセプト識別器を用いて、第1画像から第1画像に関するコンセプトを抽出する。例えば、抽出部154は、検索部153によって第1画像が検索されると、検索部153によって検索された第1画像をコンセプト識別器に入力する。例えば、抽出部154は、検索部153によって検索された第1画像である画像#11~画像#13それぞれをコンセプト識別器に入力する。なお、以下では、簡単のため、第1画像が画像#11のみである場合について説明する。
以下では、抽出部154によって抽出された隠れコンセプトに基づいて生成されたクエリ文のことを「第2クエリ文」と記載する。生成部155は、抽出部154によって抽出された隠れコンセプトに基づいて、第2クエリ文を生成する。例えば、生成部155は、抽出部154によって抽出された隠れコンセプトに基づいて、第1クエリ文を更新して、第2クエリ文を生成してよい。例えば、生成部155は、抽出部154によって抽出された隠れコンセプトである「car_interior」を含む第2クエリ文を生成してよい。出力部140は、生成部155によって生成された第2クエリ文を出力する。例えば、出力部140は、生成部155によって生成された第2クエリ文の一例として、「car_interior」を出力する。受付部151は、出力部140によって出力された第2クエリ文を利用者から受け付ける。例えば、受付部151は、出力部140によって出力された第2クエリ文である「car_interior」を利用者から受け付ける。
次に、図3を用いて、実施形態に係る情報処理の手順について説明する。図3は、実施形態に係る情報処理の一例を示すフローチャートである。図3では、受付部151が、利用者によって入力された第1クエリ文を受け付ける(ステップS101)。取得部152は、受付部151が第1クエリ文を受け付けると、複数の映像または複数の映像それぞれに含まれる各シーンである画像を映像プールから取得する(ステップS102)。
次に、図4を用いて、変形例に係る情報処理の手順について説明する。図4は、変形例に係る情報処理の一例を示すフローチャートである。図4では、受付部151が、利用者によって入力されたクエリ画像を受け付ける(ステップS201)。例えば、受付部151は、入力部130を介して利用者が入力したクエリ画像を受け付ける。ここで、本願明細書におけるクエリ画像とは、画像全体でなくてもよく、例えば、画像の一部であってもよい。
上述してきたように、実施形態に係る情報処理装置100は、受付部151と、検索部153と、抽出部154とを有する。受付部151は、利用者によって入力された第1クエリ文を受け付ける。検索部153は、VSE(Visual-Semantic Embedding)モデルを用いて、第1クエリ文に関する第1画像を検索する。抽出部154は、第1画像に関するコンセプトを抽出する。検索部153は、VSEモデルを用いて、抽出部154によって抽出されたコンセプトに基づく第2クエリ文に関する第2画像を再検索する。
また、上述してきた実施形態に係る情報処理装置100は、例えば図5に示すような構成のコンピュータ1000によって実現される。図5は、情報処理装置100の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を備える。
また、上記実施形態及び変形例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
110 通信部
120 記憶部
130 入力部
140 出力部
150 制御部
151 受付部
152 取得部
153 検索部
154 抽出部
155 生成部
Claims (15)
- 利用者によって入力された第1クエリ文を受け付ける受付部と、
VSE(Visual-Semantic Embedding)モデルを用いて、前記第1クエリ文に関する第1画像を検索する検索部と、
前記第1画像に含まれる検出対象である第1コンセプトを抽出する抽出部と、
を備え、
前記検索部は、
前記VSEモデルを用いて、前記抽出部によって抽出された第1コンセプトに基づく第2クエリ文に関する第2画像を再検索する、
情報処理装置。 - 前記検出対象は、物体、人物、場面および動作の少なくともいずれか一つを含む
請求項1に記載の情報処理装置。 - 前記抽出部によって抽出された第1コンセプトに基づいて、前記第2クエリ文を生成する生成部をさらに備え、
前記検索部は、
前記VSEモデルを用いて、前記生成部によって生成された前記第2クエリ文に関する前記第2画像を再検索する、
請求項1に記載の情報処理装置。 - 前記検索部による検索結果を出力する出力部、をさらに備え、
前記出力部は、
前記抽出部によって抽出された第1コンセプトに関する第1コンセプト情報を出力し、
前記受付部は、
前記出力部によって出力された第1コンセプト情報に基づく前記第2クエリ文を前記利用者から受け付け、
前記検索部は、
前記VSEモデルを用いて、前記受付部によって受け付けられた前記第2クエリ文に関する前記第2画像を再検索する、
請求項1に記載の情報処理装置。 - 複数の映像または前記複数の映像それぞれに含まれる各シーンである画像を取得する取得部をさらに備え、
前記検索部は、
前記取得部によって取得された画像と前記受付部によって受け付けられた第1クエリ文の組を前記VSEモデルに入力して、前記画像と前記第1クエリ文との第1類似度を前記VSEモデルから出力し、当該出力された前記第1類似度が第1閾値を超える前記第1画像を検索する、
請求項1~4のいずれか1つに記載の情報処理装置。 - 前記検索部は、
前記取得部によって取得された画像と前記抽出部によって抽出された第1コンセプトに基づく第2クエリ文の組を前記VSEモデルに入力して、前記画像と前記第2クエリ文との第2類似度を前記VSEモデルから出力し、当該出力された前記第2類似度が第2閾値を超える前記第2画像を再検索する、
請求項5に記載の情報処理装置。 - 前記抽出部は、
画像が入力された場合に、前記画像に含まれる検出対象であるコンセプトと前記画像とのコンセプト類似度を出力するよう学習された学習済みの機械学習モデルであるコンセプト識別器を用いて、前記第1画像から前記第1コンセプトを抽出する、
請求項1~6のいずれか1つに記載の情報処理装置。 - 前記抽出部は、
前記検索部によって検索された第1画像を前記コンセプト識別器に入力して、前記第1画像に含まれる検出対象である第1コンセプトと前記第1画像とのコンセプト類似度を前記コンセプト識別器から出力し、当該出力されたコンセプト類似度がコンセプト閾値を超える前記第1コンセプトを抽出する、
請求項7に記載の情報処理装置。 - 前記抽出部は、
前記出力されたコンセプト類似度がコンセプト閾値を超える前記第1コンセプトの中から、前記第1クエリ文に含まれない文字列に対応する前記第1コンセプトである隠れコンセプトを抽出する、
請求項8に記載の情報処理装置。 - 前記検索部は、
前記隠れコンセプトに基づく前記第2クエリ文に関する前記第2画像を再検索する、
請求項9に記載の情報処理装置。 - 前記受付部は、
前記利用者によって入力されたクエリ画像を受け付け、
前記検索部は、
前記VSEモデルを用いて、前記受付部によって受け付けられたクエリ画像に関する文字列を検索し、当該検索した文字列に基づく第3クエリ文に関する第3画像を検索する、
請求項1~10のいずれか1つに記載の情報処理装置。 - 複数の文章または前記複数の文章それぞれに含まれる各テキストである文字列を取得する取得部をさらに備え、
前記検索部は、
前記取得部によって取得された文字列と前記受付部によって受け付けられたクエリ画像の組を前記VSEモデルに入力して、前記文字列と前記クエリ画像との第3類似度を前記VSEモデルから出力し、当該出力された前記第3類似度が第3閾値を超える文字列を検索し、当該検索した文字列に基づく前記第3クエリ文に関する前記第3画像を検索する、
請求項11に記載の情報処理装置。 - 前記抽出部は、
前記第3画像に含まれる検出対象である第3コンセプトを抽出し、
前記検索部は、
前記VSEモデルを用いて、前記抽出部によって抽出された第3コンセプトに基づく第4クエリ文に関する第4画像を再検索する、
請求項12に記載の情報処理装置。 - 情報処理装置が実行するプログラムにより実現される情報処理方法であって、
利用者によって入力された第1クエリ文を受け付ける受付工程と、
VSE(Visual-Semantic Embedding)モデルを用いて、前記第1クエリ文に関する第1画像を検索する検索工程と、
前記第1画像に含まれる検出対象である第1コンセプトを抽出する抽出工程と、
を含み、
前記検索工程は、
前記VSEモデルを用いて、前記抽出工程によって抽出された第1コンセプトに基づく第2クエリ文に関する第2画像を再検索する、
情報処理方法。 - 利用者によって入力された第1クエリ文を受け付ける受付手順と、
VSE(Visual-Semantic Embedding)モデルを用いて、前記第1クエリ文に関する第1画像を検索する検索手順と、
前記第1画像に含まれる検出対象である第1コンセプトを抽出する抽出手順と、
をコンピュータに実行させ、
前記検索手順は、
前記VSEモデルを用いて、前記抽出手順によって抽出された第1コンセプトに基づく第2クエリ文に関する第2画像を再検索する、
情報処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021087721A JP7362074B2 (ja) | 2021-05-25 | 2021-05-25 | 情報処理装置、情報処理方法及び情報処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021087721A JP7362074B2 (ja) | 2021-05-25 | 2021-05-25 | 情報処理装置、情報処理方法及び情報処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022180941A JP2022180941A (ja) | 2022-12-07 |
JP7362074B2 true JP7362074B2 (ja) | 2023-10-17 |
Family
ID=84327837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021087721A Active JP7362074B2 (ja) | 2021-05-25 | 2021-05-25 | 情報処理装置、情報処理方法及び情報処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7362074B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7366204B1 (ja) | 2022-07-21 | 2023-10-20 | 株式会社エクサウィザーズ | 情報処理方法、コンピュータプログラム及び情報処理装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011210000A (ja) | 2010-03-30 | 2011-10-20 | Yahoo Japan Corp | 画像検索装置 |
JP2018512639A (ja) | 2015-02-25 | 2018-05-17 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | 臨床の所見のコンテキストによる評価のための方法及びシステム |
JP2019532422A (ja) | 2016-09-20 | 2019-11-07 | フェイスブック,インク. | オンライン・ソーシャル・ネットワーク上での動画のキーフレームの表示 |
JP2021039627A (ja) | 2019-09-05 | 2021-03-11 | コニカミノルタ株式会社 | 発想提案支援システム、発想提案支援装置、発想提案支援方法及びプログラム |
-
2021
- 2021-05-25 JP JP2021087721A patent/JP7362074B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011210000A (ja) | 2010-03-30 | 2011-10-20 | Yahoo Japan Corp | 画像検索装置 |
JP2018512639A (ja) | 2015-02-25 | 2018-05-17 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | 臨床の所見のコンテキストによる評価のための方法及びシステム |
JP2019532422A (ja) | 2016-09-20 | 2019-11-07 | フェイスブック,インク. | オンライン・ソーシャル・ネットワーク上での動画のキーフレームの表示 |
JP2021039627A (ja) | 2019-09-05 | 2021-03-11 | コニカミノルタ株式会社 | 発想提案支援システム、発想提案支援装置、発想提案支援方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2022180941A (ja) | 2022-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110866140B (zh) | 图像特征提取模型训练方法、图像搜索方法及计算机设备 | |
Shu et al. | See finer, see more: Implicit modality alignment for text-based person retrieval | |
Lu et al. | R-VQA: learning visual relation facts with semantic attention for visual question answering | |
CN113283551B (zh) | 多模态预训练模型的训练方法、训练装置及电子设备 | |
US11275906B2 (en) | Natural language text conversion and method therefor | |
CN106446018B (zh) | 基于人工智能的查询信息处理方法和装置 | |
CN111434118B (zh) | 用户感兴趣信息生成的装置和方法 | |
Wang et al. | Spotting and aggregating salient regions for video captioning | |
CN110717038A (zh) | 对象分类方法及装置 | |
Roy et al. | Deep metric and hash-code learning for content-based retrieval of remote sensing images | |
CN114461890A (zh) | 分层多模态的知识产权搜索引擎方法与系统 | |
JP7362074B2 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
Al Fatta et al. | Captioning image using convolutional neural network (CNN) and long-short term memory (LSTM) | |
Li et al. | Social context-aware person search in videos via multi-modal cues | |
CN113408282B (zh) | 主题模型训练和主题预测方法、装置、设备及存储介质 | |
Tang et al. | DoSEA: a domain-specific entity-aware framework for cross-domain named entity recogition | |
CN110867225A (zh) | 字符级临床概念提取命名实体识别方法及系统 | |
WO2019244276A1 (ja) | 検索システム、検索方法、及びプログラム | |
CN111445545B (zh) | 一种文本转贴图方法、装置、存储介质及电子设备 | |
Vijayaraju | Image retrieval using image captioning | |
Tejaswi Nayak et al. | Video retrieval using residual networks | |
CN112507912B (zh) | 一种识别违规图片的方法及装置 | |
JP7362075B2 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
Pham et al. | Person search by queried description in vietnamese natural language | |
JP7362076B2 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220316 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230421 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230509 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20230710 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230816 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230829 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230926 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7362074 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |