JP2021509979A5 - - Google Patents

Download PDF

Info

Publication number
JP2021509979A5
JP2021509979A5 JP2020517564A JP2020517564A JP2021509979A5 JP 2021509979 A5 JP2021509979 A5 JP 2021509979A5 JP 2020517564 A JP2020517564 A JP 2020517564A JP 2020517564 A JP2020517564 A JP 2020517564A JP 2021509979 A5 JP2021509979 A5 JP 2021509979A5
Authority
JP
Japan
Prior art keywords
image
sample
analyzed
feature
description
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020517564A
Other languages
English (en)
Other versions
JP2021509979A (ja
JP6968270B2 (ja
Filing date
Publication date
Priority claimed from CN201811459428.7A external-priority patent/CN109614613B/zh
Application filed filed Critical
Publication of JP2021509979A publication Critical patent/JP2021509979A/ja
Publication of JP2021509979A5 publication Critical patent/JP2021509979A5/ja
Application granted granted Critical
Publication of JP6968270B2 publication Critical patent/JP6968270B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Claims (18)

  1. 画像の記述文位置決定方法であって、
    被解析記述文と被解析画像に対して解析処理を行って、前記被解析記述文の複数の語句注目度重み及び前記被解析画像の複数の画像注目度重みを取得することと、
    前記複数の語句注目度重み及び被解析画像の主体特徴、位置特徴および関係特徴により、複数の第1マッチングスコアを取得することであって、前記被解析画像に複数の対象を含み、主体対象が前記複数の対象のうち、注目度重みが最も高い対象であり、前記主体特徴が前記主体対象の特徴であり、前記位置特徴が前記複数の対象の位置特徴であり、前記関係特徴が前記複数の対象の間の関係特徴であることと、
    前記複数の第1マッチングスコア及び前記複数の画像注目度重みにより、前記被解析記述文と前記被解析画像との第2マッチングスコアを取得することと、
    前記第2マッチングスコアにより、前記被解析記述文の前記被解析画像での位置決定結果を決定することとを含む、前記画像の記述文位置決定方法。
  2. 被解析記述文と被解析画像に対してそれぞれ解析処理を行って、前記被解析記述文の複数の語句注目度重み及び前記被解析画像の複数の画像注目度重みを取得することは、
    前記被解析画像に対して特徴抽出を行って、前記被解析画像の画像特徴ベクトルを取得することと、
    前記被解析記述文に対して特徴抽出を行って、前記被解析記述文の複数の分割単語の分割単語埋め込みベクトルを取得することと、
    前記画像特徴ベクトル及び前記複数の分割単語の分割単語埋め込みベクトルにより、前記被解析記述文の複数の語句注目度重み及び前記被解析画像の複数の画像注目度重みを取得することとを含む、
    請求項1に記載の方法。
  3. ニューラルネットワークによって、前記被解析記述文の複数の語句注目度重み及び前記被解析画像の複数の画像注目度重みを取得することを更に含む、
    請求項1又は2に記載の方法。
  4. 前記複数の語句注目度重みは、語句主語重み、語句位置重み及び語句関係重みを含み、
    前記ニューラルネットワークは、画像注目度ネットワークを含み、
    前記画像注目度ネットワークは、主体ネットワーク、位置ネットワーク及び関係ネットワークを含み、
    前記複数の第1マッチングスコアは、主語マッチングスコア、位置マッチングスコア及び関係マッチングスコアを含み、
    前記複数の語句注目度重み及び被解析画像の主体特徴、位置特徴および関係特徴により、複数の第1マッチングスコアを取得することは、
    前記語句主語重み及び主体特徴を前記主体ネットワークに入力して処理して、前記主語マッチングスコアを取得することと、
    前記語句位置重み及び位置特徴を前記位置ネットワークに入力して処理して、前記位置マッチングスコアを取得することと、
    前記語句関係重み及び関係特徴を前記関係ネットワークに入力して処理して、前記関係マッチングスコアを取得することとを含む、
    請求項3に記載の方法。
  5. 前記複数の画像注目度重みは、主体対象重み、対象位置重み及び対象関係重みを含み、
    前記複数の第1マッチングスコア及び前記複数の画像注目度重みにより、前記被解析記述文と前記被解析画像との第2マッチングスコアを取得することは、
    前記主体対象重み、前記対象位置重み及び前記対象関係重みにより、前記主語マッチングスコア、前記位置マッチングスコア及び前記関係マッチングスコアに対して加重平均を行って、前記第2マッチングスコアを決定することを含む、
    請求項4に記載の方法。
  6. 前記被解析画像を特徴抽出ネットワークに入力して処理して、前記主体特徴、前記位置特徴及び前記関係特徴を取得することを更に含む、
    請求項1〜5のいずれか一項に記載の方法。
  7. 前記第2マッチングスコアにより、前記被解析記述文の前記被解析画像での位置決定結果を決定することは、
    前記第2マッチングスコアがプリセットの閾値より大きいか等しい場合に、前記主体対象の画像領域を前記被解析記述文の位置決定として決定することを含む、
    請求項1〜6のいずれか一項に記載の方法。
  8. ニューラルネットワークによって前記被解析記述文の複数の語句注目度重み及び前記被解析画像の複数の画像注目度重みを取得する前に、前記方法は、複数の正のサンプルペアと複数の負のサンプルペアを含むサンプル集合を用いて前記ニューラルネットワークをトレーニングすることを更に含み、
    各正のサンプルペアは、第1サンプル画像及び前記第1サンプル画像の第1サンプル記述文を含み、
    各負のサンプルペアは、第1サンプル画像及び前記第1サンプル記述文から分割単語が除去された後の第2サンプル記述文、又は第1サンプル記述文及び前記第1サンプル画像から画像注目度重みが最も高い領域が除去された後の第2サンプル画像を含む、
    請求項3〜7のいずれか一項に記載の方法。
  9. 前記ニューラルネットワークは、言語注目度ネットワークを更に含み、
    前記正のサンプルペアの第1サンプル記述文及び第1サンプル画像を前記言語注目度ネットワークに入力して、前記第1サンプル記述文の複数の分割単語の注目度重みを取得することと、
    所定のマークを用いて前記第1サンプル記述文内の注目度重みが最も高い分割単語を取り替えて、第2サンプル記述文を取得することと、
    前記第1サンプル画像と前記第2サンプル記述文を負のサンプルペアとして使用することとを更に含む、
    請求項8に記載の方法。
  10. 前記正のサンプルペアの第1サンプル記述文及び第1サンプル画像を前記画像注目度ネットワークに入力して、前記第1サンプル画像の注目度重みを取得することと、
    前記第1サンプル画像内の注目度重みが最も高い画像領域を除去して、第2サンプル画像を取得することと、
    前記第2サンプル画像と前記第1サンプル記述文を負のサンプルペアとして使用することとを更に含む、
    請求項8又は9に記載の方法。
  11. サンプル集合を用いて前記ニューラルネットワークをトレーニングすることは、
    前記ニューラルネットワークの第1損失と第2損失により、前記ニューラルネットワークの全損失を決定することと、
    前記全損失により、前記ニューラルネットワークをトレーニングすることとを含む、
    請求項8〜10のいずれか一項に記載の方法。
  12. 前記ニューラルネットワークの第1損失と第2損失により、前記ニューラルネットワークの全損失を決定する前に、前記第1損失を取得することを更に含み、
    前記第1損失を取得することは、
    同一な正のサンプルペアの第1サンプル画像及び第1サンプル記述文を前記ニューラルネットワークに入力して処理して、第1トレーニングスコアを取得することと、
    異なる正のサンプルペアの第1サンプル画像及び第1サンプル記述文を前記ニューラルネットワークに入力して処理して、第2トレーニングスコアを取得することと、
    複数の第1トレーニングスコアと複数の第2トレーニングスコアにより、第1損失を取得することとを含む、
    請求項11に記載の方法。
  13. 前記ニューラルネットワークの第1損失と第2損失により、前記ニューラルネットワークの全損失を決定する前に、前記第2損失を取得することを更に含み、
    前記第2損失を取得することは、
    同一な負のサンプルペアの第2サンプル画像及び第1サンプル記述文を前記ニューラルネットワークに入力して処理して、第3トレーニングスコアを取得することと、
    異なる負のサンプルペアの第2サンプル画像及び第1サンプル記述文を前記ニューラルネットワークに入力して処理して、第4トレーニングスコアを取得することと、
    同一な負のサンプルペアの第1サンプル画像及び第2サンプル記述文を前記ニューラルネットワークに入力して処理して、第5トレーニングスコアを取得することと、
    異なる負のサンプルペアの第1サンプル画像及び第2サンプル記述文を前記ニューラルネットワークに入力して処理して、第6トレーニングスコアを取得することと、
    複数の第3トレーニングスコア、複数の第4トレーニングスコア、複数の第5トレーニングスコア及び複数の第6トレーニングスコアにより、第2損失を取得することとを含む、
    請求項11又は12に記載の方法。
  14. 前記ニューラルネットワークの第1損失と第2損失により、前記ニューラルネットワークの全損失を決定することは、
    前記第1損失と前記第2損失に対して加重重畳を行って、前記ニューラルネットワークの全損失を取得することを含む、
    請求項11〜13のいずれか一項に記載の方法。
  15. 画像の記述文位置決定装置であって、
    被解析記述文と被解析画像に対して解析処理を行って、前記被解析記述文の複数の語句注目度重み及び前記被解析画像の複数の画像注目度重みを取得するように構成される第1重み取得モジュールと、
    前記複数の語句注目度重み及び被解析画像の主体特徴、位置特徴、関係特徴により、複数の第1マッチングスコアを取得するように構成される第1スコア取得モジュールであって、前記被解析画像に複数の対象を含み、主体対象が前記複数の対象のうち、注目度重みが最も高い対象であり、前記主体特徴が前記主体対象の特徴であり、前記位置特徴が前記複数の対象の位置特徴であり、前記関係特徴が前記複数の対象の間の関係特徴である第1スコア取得モジュールと、
    前記複数の第1マッチングスコア及び前記複数の画像注目度重みにより、前記被解析記述文と前記被解析画像との第2マッチングスコアを取得するように構成される第2スコア取得モジュールと、
    前記第2マッチングスコアにより、前記被解析記述文の前記被解析画像での位置決定結果を決定するように構成される結果決定モジュールとを含む、前記画像の記述文位置決定装置。
  16. 電子機器であって、
    請求項1〜14のいずれか一項に記載の方法を実行するように構成されるプロセッサと、
    プロセッサ実行可能命令を記憶するためのメモリとを含む、前記電子機器。
  17. コンピュータプログラム命令を記憶したコンピュータ可読記憶媒体であって、
    前記コンピュータプログラム命令がプロセッサにより実行される時に請求項1〜14のいずれか一項に記載の方法が実現される、前記コンピュータ可読記憶媒体。
  18. コンピュータ可読記憶媒体に保存され、コンピュータ命令を含むコンピュータプログラムであって、
    前記コンピュータ命令が装置のプロセッサ上で動作されるとき、請求項1〜14のいずれか一項に記載の方法が実現される、前記コンピュータプログラム。
JP2020517564A 2018-11-30 2019-05-09 画像の記述文位置決定方法及び装置、電子機器並びに記憶媒体 Active JP6968270B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201811459428.7A CN109614613B (zh) 2018-11-30 2018-11-30 图像的描述语句定位方法及装置、电子设备和存储介质
CN201811459428.7 2018-11-30
PCT/CN2019/086274 WO2020107813A1 (zh) 2018-11-30 2019-05-09 图像的描述语句定位方法及装置、电子设备和存储介质

Publications (3)

Publication Number Publication Date
JP2021509979A JP2021509979A (ja) 2021-04-08
JP2021509979A5 true JP2021509979A5 (ja) 2021-05-20
JP6968270B2 JP6968270B2 (ja) 2021-11-17

Family

ID=66006570

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020517564A Active JP6968270B2 (ja) 2018-11-30 2019-05-09 画像の記述文位置決定方法及び装置、電子機器並びに記憶媒体

Country Status (7)

Country Link
US (1) US11455788B2 (ja)
JP (1) JP6968270B2 (ja)
KR (1) KR102454930B1 (ja)
CN (1) CN109614613B (ja)
SG (1) SG11202003836YA (ja)
TW (1) TWI728564B (ja)
WO (1) WO2020107813A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614613B (zh) 2018-11-30 2020-07-31 北京市商汤科技开发有限公司 图像的描述语句定位方法及装置、电子设备和存储介质
CN110096707B (zh) * 2019-04-29 2020-09-29 北京三快在线科技有限公司 生成自然语言的方法、装置、设备及可读存储介质
CN110263755B (zh) * 2019-06-28 2021-04-27 上海鹰瞳医疗科技有限公司 眼底图像识别模型训练方法、眼底图像识别方法和设备
US20210004795A1 (en) * 2019-07-03 2021-01-07 Sap Se Anomaly and fraud detection using duplicate event detector
CN110413819B (zh) * 2019-07-12 2022-03-29 深兰科技(上海)有限公司 一种图片描述信息的获取方法及装置
CN110516677A (zh) * 2019-08-23 2019-11-29 上海云绅智能科技有限公司 一种神经网络识别模型、目标识别方法及系统
US11461613B2 (en) * 2019-12-05 2022-10-04 Naver Corporation Method and apparatus for multi-document question answering
CN111277759B (zh) * 2020-02-27 2021-08-31 Oppo广东移动通信有限公司 构图提示方法、装置、存储介质及电子设备
CN111738186B (zh) * 2020-06-28 2024-02-02 香港中文大学(深圳) 目标定位方法、装置、电子设备及可读存储介质
CN111859005B (zh) * 2020-07-01 2022-03-29 江西理工大学 一种跨层多模型特征融合与基于卷积解码的图像描述方法
KR102451299B1 (ko) * 2020-09-03 2022-10-06 고려대학교 세종산학협력단 동물의 상황인지를 통한 캡션 생성 시스템
CN112084319B (zh) * 2020-09-29 2021-03-16 四川省人工智能研究院(宜宾) 一种基于动作的关系网络视频问答系统及方法
WO2022130509A1 (ja) * 2020-12-15 2022-06-23 日本電信電話株式会社 物体検出装置、物体検出方法、及び物体検出プログラム
CN113761153B (zh) * 2021-05-19 2023-10-24 腾讯科技(深圳)有限公司 基于图片的问答处理方法、装置、可读介质及电子设备
WO2024105752A1 (ja) * 2022-11-14 2024-05-23 日本電信電話株式会社 行動認識学習装置、行動認識推定装置、行動認識学習方法、及び行動認識学習プログラム

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10007897C1 (de) 2000-02-21 2001-06-28 Siemens Ag Verfahren zum Verteilen von Sendungen
US7181054B2 (en) * 2001-08-31 2007-02-20 Siemens Medical Solutions Health Services Corporation System for processing image representative data
EP2289516B1 (en) 2005-04-27 2014-01-08 Leiden University Medical Center Methods and means for the treatment of HPV induced intraepithelial neoplasias
US7835820B2 (en) * 2005-10-11 2010-11-16 Vanderbilt University System and method for image mapping and visual attention
US20100194756A1 (en) * 2006-08-07 2010-08-05 Max-Planck-Gesellschaft Zur Forderung Der Wissenschaften E.V., A Corporation Of Germany Method for producing scaleable image matrices
TWI464604B (zh) * 2010-11-29 2014-12-11 Ind Tech Res Inst 資料分群方法與裝置、資料處理裝置及影像處理裝置
US8428363B2 (en) * 2011-04-29 2013-04-23 Mitsubishi Electric Research Laboratories, Inc. Method for segmenting images using superpixels and entropy rate clustering
CN103106239A (zh) * 2012-12-10 2013-05-15 江苏乐买到网络科技有限公司 一种图像中对象的识别方法和装置
TWI528197B (zh) * 2013-09-26 2016-04-01 財團法人資訊工業策進會 相片分群系統及相片分群方法與電腦可讀取記錄媒體
US9477908B2 (en) * 2014-04-10 2016-10-25 Disney Enterprises, Inc. Multi-level framework for object detection
US9965705B2 (en) * 2015-11-03 2018-05-08 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering
GB2545661A (en) * 2015-12-21 2017-06-28 Nokia Technologies Oy A method for analysing media content
CN106777999A (zh) * 2016-12-26 2017-05-31 上海联影医疗科技有限公司 图像处理方法、系统和装置
CN108229518B (zh) * 2017-02-15 2020-07-10 北京市商汤科技开发有限公司 基于语句的图像检测方法、装置和系统
CN108229272B (zh) * 2017-02-23 2020-11-27 北京市商汤科技开发有限公司 视觉关系检测方法和装置及视觉关系检测训练方法和装置
CN108694398B (zh) * 2017-04-06 2020-10-30 杭州海康威视数字技术股份有限公司 一种图像分析方法及装置
CN108228686B (zh) * 2017-06-15 2021-03-23 北京市商汤科技开发有限公司 用于实现图文匹配的方法、装置和电子设备
CN109658455B (zh) * 2017-10-11 2023-04-18 阿里巴巴集团控股有限公司 图像处理方法和处理设备
CN108171254A (zh) * 2017-11-22 2018-06-15 北京达佳互联信息技术有限公司 图像标签确定方法、装置及终端
CN108108771A (zh) * 2018-01-03 2018-06-01 华南理工大学 基于多尺度深度学习的图像问答方法
CN108549850B (zh) * 2018-03-27 2021-07-16 联想(北京)有限公司 一种图像识别方法及电子设备
US10643112B1 (en) * 2018-03-27 2020-05-05 Facebook, Inc. Detecting content items violating policies of an online system using machine learning based model
CN108764083A (zh) * 2018-05-17 2018-11-06 淘然视界(杭州)科技有限公司 基于自然语言表达的目标检测方法、电子设备、存储介质
CN108874360B (zh) * 2018-06-27 2023-04-07 百度在线网络技术(北京)有限公司 全景内容定位方法和装置
CN109614613B (zh) * 2018-11-30 2020-07-31 北京市商汤科技开发有限公司 图像的描述语句定位方法及装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
JP2021509979A5 (ja)
CN107944020B (zh) 人脸图像查找方法及装置、计算机装置和存储介质
CN109670191B (zh) 机器翻译的校准优化方法、装置与电子设备
KR101923650B1 (ko) 문장 임베딩 및 유사 질문 검색을 위한 장치 및 방법
JP2021523464A5 (ja)
JP2017508197A5 (ja)
CN107368613B (zh) 短文本情感分析方法及装置
RU2017137802A (ru) Способ и система поддержки принятия врачебных решений с использованием математических моделей представления пациентов
JP2021510858A5 (ja)
CN107480196B (zh) 一种基于动态融合机制的多模态词汇表示方法
CN109492213B (zh) 句子相似度计算方法和装置
JP2014241034A5 (ja) 文を検索する装置および方法
JP2018510410A5 (ja)
US10963646B2 (en) Scenario passage pair recognizer, scenario classifier, and computer program therefor
CN109977203B (zh) 语句相似度确定方法、装置、电子设备及可读存储介质
Harbinson et al. Automated scoring of originality using semantic representations
EP4109324A3 (en) Method and apparatus for identifying noise samples, electronic device, and storage medium
CN109559342B (zh) 动物体长的测量方法和装置
JP2018097468A (ja) 文分類学習装置、文分類装置、文分類学習方法、及び文分類学習プログラム
CN107832288B (zh) 中文词语语义相似度的度量方法及装置
JP2011243147A (ja) 素性重み学習装置、N−bestスコアリング装置、N−bestリランキング装置、それらの方法およびプログラム
WO2019218482A1 (zh) 基于大数据的人群筛选方法、装置、终端设备及可读存储介质
JP2019212034A5 (ja)
KR20170094063A (ko) 의미 기반 명사 유사도 계산 장치 및 방법
CN115690546A (zh) 虾长测量方法、装置、电子设备及存储介质