JP7401606B2 - 仮想オブジェクトリップ駆動方法、モデル訓練方法、関連装置及び電子機器 - Google Patents
仮想オブジェクトリップ駆動方法、モデル訓練方法、関連装置及び電子機器 Download PDFInfo
- Publication number
- JP7401606B2 JP7401606B2 JP2022109219A JP2022109219A JP7401606B2 JP 7401606 B2 JP7401606 B2 JP 7401606B2 JP 2022109219 A JP2022109219 A JP 2022109219A JP 2022109219 A JP2022109219 A JP 2022109219A JP 7401606 B2 JP7401606 B2 JP 7401606B2
- Authority
- JP
- Japan
- Prior art keywords
- target
- model
- lip
- data
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims description 130
- 238000000034 method Methods 0.000 title claims description 96
- 230000001815 facial effect Effects 0.000 claims description 98
- 230000001360 synchronised effect Effects 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 11
- 230000007246 mechanism Effects 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 description 18
- 238000004891 communication Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000013473 artificial intelligence Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/803—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L2021/105—Synthesis of the lips movements from speech, e.g. for talking heads
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
- Image Processing (AREA)
Description
音声素片及び仮想オブジェクトの目標顔部画像データを取得することと、
前記音声素片と前記目標顔部画像データを第一目標モデルに入力して第一リップ駆動操作を実行して、前記仮想オブジェクトの前記音声素片による駆動での第一リップ画像データを得ることとを含み、
ここで、前記第一目標モデルは第一モデル及び第二モデルに基づいて訓練して得られ、前記第一モデルはリップ画像データに対するリップシンク判別モデルであり、前記第二モデルはリップ画像データにおけるリップ部領域に対するリップシンク判別モデルである。
第一音声サンプル素片及び仮想オブジェクトサンプルの第一顔部画像サンプルデータを含む第一訓練サンプルセットを取得することと、
前記第一音声サンプル素片及び前記第一顔部画像サンプルデータを第一目標モデルに入力して第二リップ駆動操作を実行して、前記仮想オブジェクトサンプルの前記第一音声サンプル素片による駆動での第三リップ画像データを得ることと、
それぞれリップ画像データに対するリップシンク判別モデルである第一モデルとリップ画像データにおけるリップ部領域に対するリップシンク判別モデルである第二モデルに基づいて、前記第三リップ画像データと前記第一音声サンプル素片に対してリップシンク判別を行って、第一判別結果及び第二判別結果を得ることと、
前記第一判別結果及び前記第二判別結果に基づいて、前記第一目標モデルの目標損失値を決定することと、
前記目標損失値に基づいて、前記第一目標モデルのパラメータを更新することとを含む。
音声素片及び仮想オブジェクトの目標顔部画像データを取得するために用いられる第一取得モジュールと、
前記音声素片及び前記目標顔部画像データを第一目標モデルに入力して第一リップ駆動操作を実行して、前記仮想オブジェクトの前記音声素片による駆動での第一リップ画像データを得るために用いられる第一操作モジュールとを含み、
ここで、前記第一目標モデルは第一モデル及び第二モデルに基づいて訓練して得られ、前記第一モデルはリップ画像データに対するリップシンク判別モデルであり、前記第二モデルはリップ画像データにおけるリップ部領域に対するリップシンク判別モデルである。
第一音声サンプル素片及び仮想オブジェクトサンプルの第一顔部画像サンプルデータを含む第一訓練サンプルセットを取得するために用いられる第二取得モジュールと、
前記第一音声サンプル素片及び前記第一顔部画像サンプルデータを第一目標モデルに入力して第二リップ駆動操作を実行して、前記仮想オブジェクトサンプルの前記第一音声サンプル素片による駆動での第三リップ画像データを得るために用いられる第二操作モジュールと、
それぞれリップ画像データに対するリップシンク判別モデルである第一モデルとリップ画像データにおけるリップ部領域に対するリップシンク判別モデルである第二モデルに基づいて、前記第三リップ画像データ及び前記第一音声サンプル素片に対してリップシンク判別を行って、第一判別結果及び第二判別結果を得るために用いられるリップシンク判別モジュールと、
前記第一判別結果及び前記第二判別結果に基づいて、前記第一目標モデルの目標損失値を決定するために用いられる第一決定モジュールと、
前記目標損失値に基づいて、前記第一目標モデルのパラメータを更新するために用いられる第一更新モジュールとを含む。
少なくとも一つのプロセッサ、及び
少なくとも一つのプロセッサと通信接続されるメモリを含み、ここで、
メモリは少なくとも一つのプロセッサが実行可能な指令を記憶しており、該指令は少なくとも一つのプロセッサにより実行されることにより、少なくとも一つのプロセッサが第一態様のいずれかの方法を実行するか、又は第二態様のいずれかの方法を実行することができる。
図1に示すように、本開示は仮想オブジェクトリップ駆動方法を提供し、以下のステップを含む:
ステップS101:音声素片及び仮想オブジェクトの目標顔部画像データを取得する。
目標リップ画像サンプルデータに基づいて前記第一モデルを訓練して第三モデルを得ることと、
前記目標リップ画像サンプルデータに基づいて前記第二モデルを訓練して第四モデルを得ることと、
前記第三モデル及び前記第四モデルに基づいて訓練して前記第一目標モデルを得ることとを含み、
ここで、目標リップ画像サンプルデータの精細度は第一所定の閾値より大きく、かつ目標リップ画像サンプルデータにおける顔部の所定の方向に対するオフセット角度は第二所定の閾値より小さく、所定の方向は画像表示画面に対する方向であってもよい。
目標リップ画像サンプルデータに基づいて前記第一モデルを訓練して第三モデルを得ることと、
前記目標リップ画像サンプルデータに基づいて前記第二モデルを訓練して第四モデルを得ることと、
前記第三モデル及び前記第四モデルに基づいて訓練して前記第一目標モデルを得ることとを含み、
ここで、前記目標リップ画像サンプルデータの精細度は第一所定の閾値より大きく、前記目標リップ画像サンプルデータにおける顔部の所定の方向に対するオフセット角度は第二所定の閾値より小さい。
それぞれ前記目標顔部画像データと前記音声素片に対して特徴抽出を行って、前記目標顔部画像データの第一特徴及び前記音声素片の第二特徴を得ることと、
前記第一特徴と前記第二特徴を整列して、第一目標特徴を得ることと、
前記第一目標特徴に基づいて前記第一リップ画像データを構築することとを含む。
注意力メカニズムを用いて前記目標顔部画像データに対して画像回帰を行って、前記目標顔部画像データにおけるリップに関連する領域に対するマスク画像を得ることをさらに含み、
前記第一目標特徴に基づいて前記第一リップ画像データを構築する前記ステップは、
前記第一目標特徴に基づいて前記仮想オブジェクトの前記音声素片による駆動での第二リップ画像データを生成することと、
前記目標顔部画像データ、前記第二リップ画像データ及び前記マスク画像を融合して、前記第一リップ画像データを得ることとを含む。
前記上層グローバル特徴と前記下層詳細特徴をそれぞれ前記第二特徴と整列して、第一目標特徴を得ることを含み、
ここで、前記第一目標特徴は整列後の前記上層グローバル特徴及び整列後の前記下層詳細特徴を含む。
図2に示すように、本開示はモデル訓練方法を提供し、
第一音声サンプル素片及び仮想オブジェクトサンプルの第一顔部画像サンプルデータを含む第一訓練サンプルセットを取得するステップS201と、
前記第一音声サンプル素片及び前記第一顔部画像サンプルデータを第一目標モデルに入力して第二リップ駆動操作を実行して、前記仮想オブジェクトサンプルの前記第一音声サンプル素片による駆動での第三リップ画像データを得るステップS202と、
それぞれリップ画像データに対するリップシンク判別モデルである第一モデルとリップ画像データにおけるリップ部領域に対するリップシンク判別モデルである第二モデルに基づいて、前記第三リップ画像データと前記第一音声サンプル素片に対してリップシンク判別を行って、第一判別結果及び第二判別結果を得るステップS203と、
前記第一判別結果及び前記第二判別結果に基づいて、前記第一目標モデルの目標損失値を決定するステップS204と、
前記目標損失値に基づいて、前記第一目標モデルのパラメータを更新するステップS205というステップを含む。
それぞれ前記第一顔部画像サンプルデータと前記第一音声サンプル素片に対して特徴抽出を行って、前記第一顔部画像サンプルデータの第五特徴及び前記第一音声サンプル素片の第六特徴を得ることと、
前記第五特徴と前記第六特徴を整列して、第二目標特徴を得ることと、
前記第二目標特徴に基づいて前記第三リップ画像データを構築することとを含む。
第二音声サンプル素片、第一リップ画像サンプルデータ及び前記第二音声サンプル素片と前記第一リップ画像サンプルデータが同期するか否かを特徴つける目標ラベルを含む第二訓練サンプルセットを取得することと、
第二目標モデルに基づいて前記第二音声サンプル素片と目標データにそれぞれ特徴抽出を行って、前記第二音声サンプル素片の第三特徴と前記目標データの第四特徴を得ることと、
前記第三特徴と前記第四特徴との間の特徴距離を決定することと、
前記特徴距離及び前記目標ラベルに基づいて、前記第二目標モデルのパラメータを更新することとをさらに含み、
ここで、前記目標データが前記第一リップ画像サンプルデータである場合、前記第二目標モデルは前記第一モデルであり、前記目標データが前記第一リップ画像サンプルデータにおけるリップ部領域のデータである場合、前記第二目標モデルは前記第二モデルである。
第三モデル及び第四モデルを更新後の前記第一目標モデルの判別器とし、第二顔部画像サンプルデータに基づいて更新後の前記第一目標モデルを訓練することにより、前記第一目標モデルのパラメータを調整することをさらに含み、
ここで、前記第三モデルは目標リップ画像サンプルデータに基づいて前記第一モデルを訓練して得られ、前記第四モデルは前記目標リップ画像サンプルデータに基づいて前記第二モデルを訓練して得られ、前記目標リップ画像サンプルデータ及び前記第二顔部画像サンプルデータの精細度はいずれも第一所定の閾値より大きく、前記目標リップ画像サンプルデータ及び前記第二顔部画像サンプルデータにおける顔部の所定の方向に対するオフセット角度はいずれも第二所定の閾値より小さい。
M個の第二リップ画像サンプルデータを取得し、Mは正の整数であり、
各第二リップ画像サンプルデータにおける顔部の所定の方向に対するオフセット角度を計算し、
前記M個の第二リップ画像サンプルデータから顔部オフセット角度が前記第二所定の閾値より小さい第二リップ画像サンプルデータを選別し、
顔部オフセット角度が前記第二所定の閾値より小さい第二リップ画像サンプルデータに対して顔部精細度を向上させて、前記目標リップ画像サンプルデータを得るという方式で取得される。
図3に示すように、本開示は仮想オブジェクトリップ駆動装置300を提供し、
音声素片及び仮想オブジェクトの目標顔部画像データを取得するために用いられる第一取得モジュール301と、
前記音声素片及び前記目標顔部画像データを第一目標モデルに入力して第一リップ駆動操作を実行して、前記仮想オブジェクトの前記音声素片による駆動での第一リップ画像データを得るために用いられる第一操作モジュール302とを含み、
ここで、前記第一目標モデルは第一モデル及び第二モデルに基づいて訓練して得られ、前記第一モデルはリップ画像データに対するリップシンク判別モデルであり、前記第二モデルはリップ画像データにおけるリップ部領域に対するリップシンク判別モデルである。
目標リップ画像サンプルデータに基づいて前記第一モデルを訓練して第三モデルを得ることと、
前記目標リップ画像サンプルデータに基づいて前記第二モデルを訓練して第四モデルを得ることと、
前記第三モデル及び前記第四モデルに基づいて訓練して前記第一目標モデルを得ることとを含み、
ここで、前記目標リップ画像サンプルデータの精細度は第一所定の閾値より大きく、前記目標リップ画像サンプルデータにおける顔部の所定の方向に対するオフセット角度は第二所定の閾値より小さい。
それぞれ前記目標顔部画像データと前記音声素片に対して特徴抽出を行って、前記目標顔部画像データの第一特徴と前記音声素片の第二特徴を得るために用いられる抽出ユニットと、
前記第一特徴と前記第二特徴を整列して、第一目標特徴を得るために用いられる整列ユニットと、
前記第一目標特徴に基づいて前記第一リップ画像データを構築するために用いられる構築ユニットとを含む。
注意力メカニズムを用いて前記目標顔部画像データに対して画像回帰を行って、前記目標顔部画像データにおけるリップに関連する領域に対するマスク画像を得るために用いられる画像回帰モジュールをさらに含み、
前記構築ユニットは、具体的には、
前記第一目標特徴に基づいて前記仮想オブジェクトの前記音声素片による駆動での第二リップ画像データを生成し、
前記目標顔部画像データ、前記第二リップ画像データ及び前記マスク画像を融合して、前記第一リップ画像データを得るために用いられる。
前記上層グローバル特徴と前記下層詳細特徴をそれぞれ前記第二特徴と整列して、第一目標特徴を得るために用いられ、
ここで、前記第一目標特徴は整列後の前記上層グローバル特徴及び整列後の前記下層詳細特徴を含む。
図4に示すように、本開示はモデル訓練装置400を提供し、
第一音声サンプル素片及び仮想オブジェクトサンプルの第一顔部画像サンプルデータを含む第一訓練サンプルセットを取得するために用いられる第二取得モジュール401と、
前記第一音声サンプル素片及び前記第一顔部画像サンプルデータを第一目標モデルに入力して第二リップ駆動操作を実行して、前記仮想オブジェクトサンプルの前記第一音声サンプル素片による駆動での第三リップ画像データを得るために用いられる第二操作モジュール402と、
それぞれリップ画像データに対するリップシンク判別モデルである第一モデルとリップ画像データにおけるリップ部領域に対するリップシンク判別モデルである第二モデルに基づいて、前記第三リップ画像データ及び前記第一音声サンプル素片に対してリップシンク判別を行って、第一判別結果及び第二判別結果を得るために用いられるリップシンク判別モジュール403と、
前記第一判別結果及び前記第二判別結果に基づいて、前記第一目標モデルの目標損失値を決定するために用いられる第一決定モジュール404と、
前記目標損失値に基づいて、前記第一目標モデルのパラメータを更新するために用いられる第一更新モジュール405とを含む。
第二音声サンプル素片、第一リップ画像サンプルデータ及び前記第二音声サンプル素片と前記第一リップ画像サンプルデータとが同期するか否かを特徴つける目標ラベルを含む第二訓練サンプルセットを取得するために用いられる第三取得モジュールと、
第二目標モデルに基づいて前記第二音声サンプル素片と目標データに対してそれぞれ特徴抽出を行って、前記第二音声サンプル素片の第三特徴及び前記目標データの第四特徴を得るために用いられる特徴抽出モジュールと、
前記第三特徴と前記第四特徴との間の特徴距離を決定するために用いられる第二決定モジュールと、
前記特徴距離及び前記目標ラベルに基づいて、前記第二目標モデルのパラメータを更新するために用いられる第二更新モジュールとをさらに含み、
ここで、前記目標データが前記第一リップ画像サンプルデータである場合、前記第二目標モデルは前記第一モデルであり、前記目標データが前記第一リップ画像サンプルデータにおけるリップ部領域のデータである場合、前記第二目標モデルは前記第二モデルである。
第三モデル及び第四モデルを更新後の前記第一目標モデルの判別器とし、第二顔部画像サンプルデータに基づいて更新後の前記第一目標モデルを訓練することにより、前記第一目標モデルのパラメータを調整するために用いられるモデル訓練モジュールをさらに含み、
ここで、前記第三モデルは目標リップ画像サンプルデータに基づいて前記第一モデルを訓練して得られ、前記第四モデルは前記目標リップ画像サンプルデータに基づいて前記第二モデルを訓練して得られ、前記目標リップ画像サンプルデータ及び前記第二顔部画像サンプルデータの精細度はいずれも第一所定の閾値より大きく、前記目標リップ画像サンプルデータ及び前記第二顔部画像サンプルデータにおける顔部の所定の方向に対するオフセット角度はいずれも第二所定の閾値より小さい。
M個の第二リップ画像サンプルデータを取得し、Mは正の整数であり、
各第二リップ画像サンプルデータにおける顔部の所定の方向に対するオフセット角度を計算し、
前記M個の第二リップ画像サンプルデータから顔部オフセット角度が前記第二所定の閾値より小さい第二リップ画像サンプルデータを選別し、
顔部オフセット角度が前記第二所定の閾値より小さい第二リップ画像サンプルデータに対して顔部精細度を向上させて、前記目標リップ画像サンプルデータを得るという方式で取得される。
Claims (21)
- 音声素片及び仮想オブジェクトの目標顔部画像データを取得することと、
前記音声素片と前記目標顔部画像データを第一目標モデルに入力して第一リップ駆動操作を実行して、前記仮想オブジェクトの前記音声素片による駆動での第一リップ画像データを得ることとを含み、
ここで、前記第一目標モデルは第一モデル及び第二モデルに基づいて訓練して得られ、前記第一モデルはリップ画像データに対するリップシンク判別モデルであり、前記第二モデルはリップ画像データにおけるリップ部領域に対するリップシンク判別モデルである、仮想オブジェクトリップ駆動方法。 - 前記第一目標モデルが第一モデル及び第二モデルに基づいて訓練して得られることは、
目標リップ画像サンプルデータに基づいて前記第一モデルを訓練して第三モデルを得ることと、
前記目標リップ画像サンプルデータに基づいて前記第二モデルを訓練して第四モデルを得ることと、
前記第三モデル及び前記第四モデルに基づいて訓練して前記第一目標モデルを得ることとを含み、
ここで、前記目標リップ画像サンプルデータの精細度は第一所定の閾値より大きく、前記目標リップ画像サンプルデータにおける顔部の所定の方向に対するオフセット角度は第二所定の閾値より小さい、請求項1に記載の方法。 - 前記第一リップ駆動操作は、
それぞれ前記目標顔部画像データと前記音声素片に対して特徴抽出を行って、前記目標顔部画像データの第一特徴及び前記音声素片の第二特徴を得ることと、
前記第一特徴と前記第二特徴を整列して、第一目標特徴を得ることと、
前記第一目標特徴に基づいて前記第一リップ画像データを構築することとを含む、請求項1に記載の方法。 - 前記第一目標特徴に基づいて前記第一リップ画像データを構築することの前に、
注意力メカニズムを用いて前記目標顔部画像データに対して画像回帰を行って、前記目標顔部画像データにおけるリップに関連する領域に対するマスク画像を得ることとをさらに含み、
前記第一目標特徴に基づいて前記第一リップ画像データを構築することは、
前記第一目標特徴に基づいて前記仮想オブジェクトの前記音声素片による駆動での第二リップ画像データを生成することと、
前記目標顔部画像データ、前記第二リップ画像データ及び前記マスク画像を融合して、前記第一リップ画像データを得ることとを含む、請求項3に記載の方法。 - 前記第一特徴は上層グローバル特徴及び下層詳細特徴を含み、前記第一特徴と前記第二特徴を整列して、第一目標特徴を得ることは、
前記上層グローバル特徴と前記下層詳細特徴をそれぞれ前記第二特徴と整列して、第一目標特徴を得ることを含み、
ここで、前記第一目標特徴は整列後の前記上層グローバル特徴及び整列後の前記下層詳細特徴を含む、請求項3に記載の方法。 - 第一音声サンプル素片及び仮想オブジェクトサンプルの第一顔部画像サンプルデータを含む第一訓練サンプルセットを取得することと、
前記第一音声サンプル素片及び前記第一顔部画像サンプルデータを第一目標モデルに入力して第二リップ駆動操作を実行して、前記仮想オブジェクトサンプルの前記第一音声サンプル素片による駆動での第三リップ画像データを得ることと、
それぞれリップ画像データに対するリップシンク判別モデルである第一モデルとリップ画像データにおけるリップ部領域に対するリップシンク判別モデルである第二モデルに基づいて、前記第三リップ画像データと前記第一音声サンプル素片に対してリップシンク判別を行って、第一判別結果及び第二判別結果を得ることと、
前記第一判別結果及び前記第二判別結果に基づいて、前記第一目標モデルの目標損失値を決定することと、
前記目標損失値に基づいて、前記第一目標モデルのパラメータを更新することとを含む、モデル訓練方法。 - 前記第一音声サンプル素片及び前記第一顔部画像サンプルデータを第一目標モデルに入力して第二リップ駆動操作を実行して、前記仮想オブジェクトサンプルの前記第一音声サンプル素片による駆動での第三リップ画像データを得ることの前に、前記方法は
第二音声サンプル素片、第一リップ画像サンプルデータ及び前記第二音声サンプル素片と前記第一リップ画像サンプルデータが同期するか否かを特徴つける目標ラベルを含む第二訓練サンプルセットを取得することと、
第二目標モデルに基づいて前記第二音声サンプル素片と目標データにそれぞれ特徴抽出を行って、前記第二音声サンプル素片の第三特徴と前記目標データの第四特徴を得ることと、
前記第三特徴と前記第四特徴との間の特徴距離を決定することと、
前記特徴距離及び前記目標ラベルに基づいて、前記第二目標モデルのパラメータを更新することとをさらに含み、
ここで、前記目標データが前記第一リップ画像サンプルデータである場合、前記第二目標モデルは前記第一モデルであり、前記目標データが前記第一リップ画像サンプルデータにおけるリップ部領域のデータである場合、前記第二目標モデルは前記第二モデルである、請求項6に記載の方法。 - 前記目標損失値に基づいて、前記第一目標モデルのパラメータを更新することの後に、前記方法は、
第三モデル及び第四モデルを更新後の前記第一目標モデルの判別器とし、第二顔部画像サンプルデータに基づいて更新後の前記第一目標モデルを訓練することにより、前記第一目標モデルのパラメータを調整することをさらに含み、
ここで、前記第三モデルは目標リップ画像サンプルデータに基づいて前記第一モデルを訓練して得られ、前記第四モデルは前記目標リップ画像サンプルデータに基づいて前記第二モデルを訓練して得られ、前記目標リップ画像サンプルデータ及び前記第二顔部画像サンプルデータの精細度はいずれも第一所定の閾値より大きく、前記目標リップ画像サンプルデータ及び前記第二顔部画像サンプルデータにおける顔部の所定の方向に対するオフセット角度はいずれも第二所定の閾値より小さい、請求項7に記載の方法。 - 前記目標リップ画像サンプルデータは、
M個の第二リップ画像サンプルデータを取得し、
各第二リップ画像サンプルデータにおける顔部の所定の方向に対するオフセット角度を計算し、
前記M個の第二リップ画像サンプルデータから顔部オフセット角度が前記第二所定の閾値より小さい第二リップ画像サンプルデータを選別し、
顔部オフセット角度が前記第二所定の閾値より小さい第二リップ画像サンプルデータに対して顔部精細度を向上させて、前記目標リップ画像サンプルデータを得るという方式で取得され、Mは正の整数である、請求項8に記載の方法。 - 音声素片及び仮想オブジェクトの目標顔部画像データを取得するために用いられる第一取得モジュールと、
前記音声素片及び前記目標顔部画像データを第一目標モデルに入力して第一リップ駆動操作を実行して、前記仮想オブジェクトの前記音声素片による駆動での第一リップ画像データを得るために用いられる第一操作モジュールとを含み、
ここで、前記第一目標モデルは第一モデル及び第二モデルに基づいて訓練して得られ、前記第一モデルはリップ画像データに対するリップシンク判別モデルであり、前記第二モデルはリップ画像データにおけるリップ部領域に対するリップシンク判別モデルである、仮想オブジェクトリップ駆動装置。 - 前記第一目標モデルが第一モデル及び第二モデルに基づいて訓練して得られることは、
目標リップ画像サンプルデータに基づいて前記第一モデルを訓練して第三モデルを得ることと、
前記目標リップ画像サンプルデータに基づいて前記第二モデルを訓練して第四モデルを得ることと、
前記第三モデル及び前記第四モデルに基づいて訓練して前記第一目標モデルを得ることとを含み、
ここで、前記目標リップ画像サンプルデータの精細度は第一所定の閾値より大きく、前記目標リップ画像サンプルデータにおける顔部の所定の方向に対するオフセット角度は第二所定の閾値より小さい、請求項10に記載の装置。 - 前記第一操作モジュールは、
それぞれ前記目標顔部画像データと前記音声素片に対して特徴抽出を行って、前記目標顔部画像データの第一特徴と前記音声素片の第二特徴を得るために用いられる抽出ユニットと、
前記第一特徴と前記第二特徴を整列して、第一目標特徴を得るために用いられる整列ユニットと、
前記第一目標特徴に基づいて前記第一リップ画像データを構築するために用いられる構築ユニットとを含む、請求項10に記載の装置。 - 注意力メカニズムを用いて前記目標顔部画像データに対して画像回帰を行って、前記目標顔部画像データにおけるリップに関連する領域に対するマスク画像を得るために用いられる画像回帰モジュールをさらに含み、
前記構築ユニットは、具体的には
前記第一目標特徴に基づいて前記仮想オブジェクトの前記音声素片による駆動での第二リップ画像データを生成し、
前記目標顔部画像データ、前記第二リップ画像データ及び前記マスク画像を融合して、前記第一リップ画像データを得るために用いられる、請求項12に記載の装置。 - 前記第一特徴は上層グローバル特徴及び下層詳細特徴を含み、
前記整列ユニットは、具体的には、
前記上層グローバル特徴と前記下層詳細特徴をそれぞれ前記第二特徴と整列して、第一目標特徴を得るために用いられ、
ここで、前記第一目標特徴は整列後の前記上層グローバル特徴及び整列後の前記下層詳細特徴を含む、請求項12に記載の装置。 - 第一音声サンプル素片及び仮想オブジェクトサンプルの第一顔部画像サンプルデータを含む第一訓練サンプルセットを取得するために用いられる第二取得モジュールと、
前記第一音声サンプル素片及び前記第一顔部画像サンプルデータを第一目標モデルに入力して第二リップ駆動操作を実行して、前記仮想オブジェクトサンプルの前記第一音声サンプル素片による駆動での第三リップ画像データを得るために用いられる第二操作モジュールと、
それぞれリップ画像データに対するリップシンク判別モデルである第一モデルとリップ画像データにおけるリップ部領域に対するリップシンク判別モデルである第二モデルに基づいて、前記第三リップ画像データ及び前記第一音声サンプル素片に対してリップシンク判別を行って、第一判別結果及び第二判別結果を得るために用いられるリップシンク判別モジュールと、
前記第一判別結果及び前記第二判別結果に基づいて、前記第一目標モデルの目標損失値を決定するために用いられる第一決定モジュールと、
前記目標損失値に基づいて、前記第一目標モデルのパラメータを更新するために用いられる第一更新モジュールとを含む、モデル訓練装置。 - 第二音声サンプル素片、第一リップ画像サンプルデータ及び前記第二音声サンプル素片と前記第一リップ画像サンプルデータとが同期するか否かを特徴つける目標ラベルを含む第二訓練サンプルセットを取得するために用いられる第三取得モジュールと、
第二目標モデルに基づいて前記第二音声サンプル素片と目標データに対してそれぞれ特徴抽出を行って、前記第二音声サンプル素片の第三特徴及び前記目標データの第四特徴を得るために用いられる特徴抽出モジュールと、
前記第三特徴と前記第四特徴との間の特徴距離を決定するために用いられる第二決定モジュールと、
前記特徴距離及び前記目標ラベルに基づいて、前記第二目標モデルのパラメータを更新するために用いられる第二更新モジュールとをさらに含み、
ここで、前記目標データが前記第一リップ画像サンプルデータである場合、前記第二目標モデルは前記第一モデルであり、前記目標データが前記第一リップ画像サンプルデータにおけるリップ部領域のデータである場合、前記第二目標モデルは前記第二モデルである、請求項15に記載の装置。 - 第三モデル及び第四モデルを更新後の前記第一目標モデルの判別器とし、第二顔部画像サンプルデータに基づいて更新後の前記第一目標モデルを訓練することにより、前記第一目標モデルのパラメータを調整するために用いられるモデル訓練モジュールとをさらに含み、
ここで、前記第三モデルは目標リップ画像サンプルデータに基づいて前記第一モデルを訓練して得られ、前記第四モデルは前記目標リップ画像サンプルデータに基づいて前記第二モデルを訓練して得られ、前記目標リップ画像サンプルデータ及び前記第二顔部画像サンプルデータの精細度はいずれも第一所定の閾値より大きく、前記目標リップ画像サンプルデータ及び前記第二顔部画像サンプルデータにおける顔部の所定の方向に対するオフセット角度はいずれも第二所定の閾値より小さい、請求項16に記載の装置。 - 前記目標リップ画像サンプルデータは、
M個の第二リップ画像サンプルデータを取得し、
各第二リップ画像サンプルデータにおける顔部の所定の方向に対するオフセット角度を計算し、
前記M個の第二リップ画像サンプルデータから顔部オフセット角度が前記第二所定の閾値より小さい第二リップ画像サンプルデータを選別し、
顔部オフセット角度が前記第二所定の閾値より小さい第二リップ画像サンプルデータに対して顔部精細度を向上させて、前記目標リップ画像サンプルデータを得るという方式で取得され、Mは正の整数である、請求項17に記載の装置。 - 少なくとも一つのプロセッサ、及び
前記少なくとも一つのプロセッサと通信接続されるメモリを含み、ここで、
前記メモリは前記少なくとも一つのプロセッサが実行可能な指令を記憶しており、前記指令が前記少なくとも一つのプロセッサにより実行されることにより、前記少なくとも一つのプロセッサが請求項1-5のいずれか一項に記載の方法を実行することができるか、又は請求項6-9のいずれか一項に記載の方法を実行することができる、電子機器。 - コンピュータ指令を記憶した非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ指令はコンピュータに請求項1-5のいずれか一項に記載の方法を実行させるか、又は請求項6-9のいずれか一項に記載の方法を実行させるために用いられる、記憶媒体。 - コンピュータプログラムであって、前記コンピュータプログラムはプロセッサにより実行される場合に請求項1-5のいずれか一項に記載の方法を実現するか、又は実行される場合に請求項6-9のいずれか一項に記載の方法を実現する、コンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111261314.3A CN113971828B (zh) | 2021-10-28 | 2021-10-28 | 虚拟对象唇形驱动方法、模型训练方法、相关装置及电子设备 |
CN202111261314.3 | 2021-10-28 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022133409A JP2022133409A (ja) | 2022-09-13 |
JP7401606B2 true JP7401606B2 (ja) | 2023-12-19 |
Family
ID=79588706
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022109219A Active JP7401606B2 (ja) | 2021-10-28 | 2022-07-06 | 仮想オブジェクトリップ駆動方法、モデル訓練方法、関連装置及び電子機器 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220383574A1 (ja) |
JP (1) | JP7401606B2 (ja) |
CN (1) | CN113971828B (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115345968B (zh) * | 2022-10-19 | 2023-02-07 | 北京百度网讯科技有限公司 | 虚拟对象驱动方法、深度学习网络的训练方法及装置 |
CN115376211B (zh) * | 2022-10-25 | 2023-03-24 | 北京百度网讯科技有限公司 | 唇形驱动方法、唇形驱动模型的训练方法、装置及设备 |
CN115392216B (zh) * | 2022-10-27 | 2023-03-14 | 科大讯飞股份有限公司 | 一种虚拟形象生成方法、装置、电子设备及存储介质 |
CN116228895B (zh) * | 2023-01-16 | 2023-11-17 | 北京百度网讯科技有限公司 | 视频生成方法、深度学习模型训练方法、装置以及设备 |
CN118474410A (zh) * | 2023-02-08 | 2024-08-09 | 华为技术有限公司 | 视频生成方法、装置和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007058846A (ja) | 2005-07-27 | 2007-03-08 | Advanced Telecommunication Research Institute International | リップシンクアニメーション作成用の統計確率モデル作成装置、パラメータ系列合成装置、リップシンクアニメーション作成システム、及びコンピュータプログラム |
US20220036617A1 (en) | 2020-07-30 | 2022-02-03 | Tata Consultancy Services Limited | Audio-speech driven animated talking face generation using a cascaded generative adversarial network |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7133535B2 (en) * | 2002-12-21 | 2006-11-07 | Microsoft Corp. | System and method for real time lip synchronization |
CN112102448B (zh) * | 2020-09-14 | 2023-08-04 | 北京百度网讯科技有限公司 | 虚拟对象图像显示方法、装置、电子设备和存储介质 |
CN112465935A (zh) * | 2020-11-19 | 2021-03-09 | 科大讯飞股份有限公司 | 虚拟形象合成方法、装置、电子设备和存储介质 |
CN113192161B (zh) * | 2021-04-22 | 2022-10-18 | 清华珠三角研究院 | 一种虚拟人形象视频生成方法、系统、装置及存储介质 |
CN113378697B (zh) * | 2021-06-08 | 2022-12-09 | 安徽大学 | 一种基于卷积神经网络的说话人脸视频生成方法及装置 |
-
2021
- 2021-10-28 CN CN202111261314.3A patent/CN113971828B/zh active Active
-
2022
- 2022-07-06 JP JP2022109219A patent/JP7401606B2/ja active Active
- 2022-08-08 US US17/883,037 patent/US20220383574A1/en not_active Abandoned
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007058846A (ja) | 2005-07-27 | 2007-03-08 | Advanced Telecommunication Research Institute International | リップシンクアニメーション作成用の統計確率モデル作成装置、パラメータ系列合成装置、リップシンクアニメーション作成システム、及びコンピュータプログラム |
US20220036617A1 (en) | 2020-07-30 | 2022-02-03 | Tata Consultancy Services Limited | Audio-speech driven animated talking face generation using a cascaded generative adversarial network |
Also Published As
Publication number | Publication date |
---|---|
CN113971828A (zh) | 2022-01-25 |
US20220383574A1 (en) | 2022-12-01 |
JP2022133409A (ja) | 2022-09-13 |
CN113971828B (zh) | 2023-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7401606B2 (ja) | 仮想オブジェクトリップ駆動方法、モデル訓練方法、関連装置及び電子機器 | |
EP4009231A1 (en) | Video frame information labeling method, device and apparatus, and storage medium | |
US11568590B2 (en) | Cartoonlization processing method for image, electronic device, and storage medium | |
US20230143452A1 (en) | Method and apparatus for generating image, electronic device and storage medium | |
CN114821734A (zh) | 一种驱动虚拟人物表情的方法和装置 | |
US20230047748A1 (en) | Method of fusing image, and method of training image fusion model | |
US20220189189A1 (en) | Method of training cycle generative networks model, and method of building character library | |
CN112562045B (zh) | 生成模型和生成3d动画的方法、装置、设备和存储介质 | |
WO2022247343A1 (zh) | 识别模型训练方法、识别方法、装置、设备及存储介质 | |
US20240331093A1 (en) | Method of training fusion model, method of fusing image, device, and storage medium | |
CN112634413B (zh) | 生成模型和生成3d动画的方法、装置、设备和存储介质 | |
WO2022252372A1 (zh) | 一种图像处理方法、装置、设备及计算机可读存储介质 | |
WO2022227765A1 (zh) | 生成图像修复模型的方法、设备、介质及程序产品 | |
US20230139994A1 (en) | Method for recognizing dynamic gesture, device, and storage medium | |
US20230115765A1 (en) | Method and apparatus of transferring image, and method and apparatus of training image transfer model | |
WO2023024653A1 (zh) | 图像处理方法、图像处理装置、电子设备以及存储介质 | |
CN116071467A (zh) | 唇形驱动模型的生成方法、装置、电子设备及存储介质 | |
CN117456063B (zh) | 基于语音的人脸驱动方法、装置、电子设备及存储介质 | |
CN116402914B (zh) | 用于确定风格化图像生成模型的方法、装置及产品 | |
CN112714337A (zh) | 视频处理方法、装置、电子设备和存储介质 | |
CN117456062A (zh) | 数字人生成模型的生成器训练方法、数字人生成方法及装置 | |
EP4152269A1 (en) | Method and apparatus of generating 3d video, method and apparatus of training model, device, and medium | |
CN115065863B (zh) | 视频生成方法、装置、电子设备及存储介质 | |
CN115690238A (zh) | 图像生成及模型训练方法、装置、设备和存储介质 | |
US12125131B2 (en) | Method of generating 3D video, method of training model, electronic device, and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220706 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230530 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230704 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230927 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231207 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7401606 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |