KR101094896B1 - Apparatus and Method for realizing multimedia - Google Patents

Apparatus and Method for realizing multimedia Download PDF

Info

Publication number
KR101094896B1
KR101094896B1 KR1020100013886A KR20100013886A KR101094896B1 KR 101094896 B1 KR101094896 B1 KR 101094896B1 KR 1020100013886 A KR1020100013886 A KR 1020100013886A KR 20100013886 A KR20100013886 A KR 20100013886A KR 101094896 B1 KR101094896 B1 KR 101094896B1
Authority
KR
South Korea
Prior art keywords
fingerprint
node
image
segment
hidden
Prior art date
Application number
KR1020100013886A
Other languages
Korean (ko)
Other versions
KR20110094487A (en
Inventor
유창동
진민호
김종민
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020100013886A priority Critical patent/KR101094896B1/en
Publication of KR20110094487A publication Critical patent/KR20110094487A/en
Application granted granted Critical
Publication of KR101094896B1 publication Critical patent/KR101094896B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/457Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by analysing connectivity, e.g. edge linking, connected component analysis or slices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/143Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture
    • G06T7/41Analysis of texture based on statistical description of texture
    • G06T7/46Analysis of texture based on statistical description of texture using random fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Collating Specific Patterns (AREA)

Abstract

본 발명은 입력 영상의 각 프레임에서 핑거프린트를 추출하고, 상기 추출된 핑거프린트를 이용하여 상기 영상을 분절 단위로 나누는 영상 분절부, 상기 나누어진 각 분절을 노드로 설정하고, 각 노드의 관측변수와 숨겨진 변수를 설정하여 마르코프 랜덤 필드(MRF)를 구축하는 마르코프 랜덤 필드 구축부, 상기 구축된 마르코프 랜덤 필드의 확률 값을 최대화시키는 숨겨진 변수값

Figure 112010010065018-pat00110
을 추정하는 변수값 추정부, 상기 추정된 숨겨진 변수값을 이용하여 각 분절이 속하는 영상 및 그 영상에서의 위치를 인식하는 영상 인식부로 구성되어, 화질 저하, 손실 압축은 물론 속도 변화가 있는 멀티미디어 및 편집이 가해진 멀티미디어를 인식할 수 있다.According to the present invention, a fingerprint is extracted from each frame of an input image, an image segmentation unit for dividing the image into segments by using the extracted fingerprint, and each divided segment is set as a node, and an observation variable of each node Markov random field construction unit for constructing a Markov random field (MRF) by setting a hidden variable and a hidden variable value to maximize the probability value of the constructed Markov random field
Figure 112010010065018-pat00110
A variable value estimating unit for estimating a value and an image recognizing unit for recognizing an image to which each segment belongs and a position in the image by using the estimated hidden variable value. Recognize the edited multimedia.

Description

멀티미디어 인식 장치 및 방법{Apparatus and Method for realizing multimedia}Apparatus and Method for realizing multimedia

본 발명은 멀티미디어 인식 방법에 관한 것으로, 더욱 상세하게는 입력 영상을 분절 단위로 나눈 후, 분절간의 확률관계를 마르코프 랜덤 필드로 모델링하고, 상기 마르코프 랜덤 필드의 확률 값을 최대화시키는 숨겨진 변수값을 추정하여 각 분절이 속하는 영상 및 그 영상에서의 위치를 인식하는 멀티미디어 인식 장치 및 방법에 관한 것이다.
The present invention relates to a multimedia recognition method. More particularly, after dividing an input image by segment units, a probability relationship between segments is modeled as a Markov random field, and a hidden variable value for maximizing a probability value of the Markov random field is estimated. The present invention relates to a multimedia recognition apparatus and a method for recognizing an image to which each segment belongs and a position in the image.

정보 처리 기술의 발전에 따라 멀티미디어의 복제, 저장, 전송이 수월해졌다. 이러한 기술의 발전은 멀티미디어 유통을 원활하게 하는 장점이 있으나, 동시에 멀티미디어의 불법 복제를 촉진하고 있다.Advances in information processing technology have made it easier to copy, store, and transmit multimedia. The development of this technology has the advantage of facilitating the distribution of multimedia, but at the same time promotes illegal copying of multimedia.

따라서 불법 복제방지를 위한 시스템의 필요성이 대두되었고, 이를 위해 멀티미디어 인식 시스템을 이용한 P2P 필터링 시스템이 개발되었다. 기존의 멀티미디어 인식 시스템의 경우, 원본 콘텐츠를 재압축, 화면 크기 변화, 화질 저하 등을 통해 재가공해서 올린 불법 복제 콘텐츠를 검출하고 유통을 막는데 목표를 두고 있다. Therefore, the necessity of a system for preventing illegal copying has emerged, and for this purpose, a P2P filtering system using a multimedia recognition system has been developed. Existing multimedia recognition system aims to detect illegal distribution contents uploaded by reprocessing original contents by recompressing, changing screen size, degrading image quality and preventing distribution.

도 1은 종래의 멀티미디어 인식 장치의 구성을 개략적으로 나타낸 블럭도, 도 2는 종래의 멀티미디어 인식 장치가 인식하는 영상을 나타낸 예시도이다.1 is a block diagram schematically showing the configuration of a conventional multimedia recognition device, Figure 2 is an exemplary view showing an image recognized by the conventional multimedia recognition device.

도 1을 참조하면, 멀티미디어 인식 장치는 핑거프린트 추출부(100), 핑거프린트 검색부(110), 데이터베이스(120), 핑거프린트 검증부(130)를 포함한다.Referring to FIG. 1, the multimedia recognition apparatus includes a fingerprint extractor 100, a fingerprint search unit 110, a database 120, and a fingerprint verification unit 130.

상기 데이터베이스(120)는 저작권을 보호해야 하는 콘텐츠에서 추출한 핑거프린트 수열들이 저장된 핑거프린트 데이터베이스(124), 각각의 핑거프린트 수열에 대해서 그 핑거프린트 수열이 어떤 콘텐츠의 어느 부분에서 추출된 것인지를 밝힐 수 있는 메타데이터 데이터베이스(348)를 포함된다. The database 120 may reveal the fingerprint database 124 in which the fingerprint sequences extracted from the content to be copyrighted are stored, and in which part of the content the fingerprint sequence is extracted for each fingerprint sequence. Metadata database 348 is included.

상기 핑거프린트 추출부(100)는 입력된 영상에서 콘텐츠를 구분하기 위해 산출된 핑거프린트 수열(sequence)를 추출한다. 이러한 핑거프린트들은 원본 콘텐츠에서 추출한 경우와, 원본에 콘텐츠 손실 압축, 화면 크기, 영상 화질 저하가 가해진 경우에 추출한 경우에도 비슷한 값을 가지도록 설계되어 있다. The fingerprint extractor 100 extracts a fingerprint sequence calculated to distinguish content from an input image. Such fingerprints are designed to have similar values when extracted from original content and when extracted from original content loss compression, screen size, and image quality deterioration.

즉, 상기 핑거프린트 추출부(100)는 인식해야 하는 멀티미디어 콘텐츠가 입력되면, 멀티미디어 핑거프린트 수열을 추출하고, 이를 핑거프린트 검색부(110)의 입력으로 전달한다.That is, when the multimedia content to be recognized is input, the fingerprint extractor 100 extracts the multimedia fingerprint sequence and transfers it to the input of the fingerprint search unit 110.

상기 핑거프린트 검색부(110)는 상기 핑거프린트 데이터베이스(124)를 검색하여 상기 핑거프린트 추출부(100)에서 추출된 핑거프린트 수열과 가장 유사한 핑거프린트 수열을 검색한다. 예를 들면, 상기 핑거프린트 검색부(110)는 상기 추출된 핑거프린트 수열과 동일한 길이를 가지는 핑거프린트 수열들을 상기 핑거프린트 데이터베이스(124)에서 검색한다. The fingerprint search unit 110 searches the fingerprint database 124 to search for the fingerprint sequence most similar to the fingerprint sequence extracted by the fingerprint extractor 100. For example, the fingerprint search unit 110 searches the fingerprint database 124 for fingerprint sequences having the same length as the extracted fingerprint sequence.

상기 핑거프린트 검증부(130)는 상기 핑거프린트 검색부(110)에서 검색된 핑거프린트 수열과 상기 핑거프린트 추출부(100)에서 추출한 핑거프린트 수열 사이의 거리를 계산한 후, 그 거리 값을 기준으로 실제 이 둘이 같은 콘텐츠에 해당하는지를 판별한다.The fingerprint verification unit 130 calculates a distance between the fingerprint sequence retrieved by the fingerprint retrieval unit 110 and the fingerprint sequence extracted by the fingerprint extractor 100 and then based on the distance value. In reality, it is determined whether the two correspond to the same content.

즉, 입력된 멀티미디어 콘텐츠는 핑거프린트 데이터베이스(124)에 등록되어 있을 수도, 등록되어 있지 않을 수도 있다. 또한, 핑거프린트 검색부(110)에서 검색된 가장 가까운 핑거프린트 수열이 실제 입력된 멀티미디어에 해당할 수도 있고 아닐 수도 있다. 따라서 가장 가까운 핑거프린트 수열에 해당하는 멀티미디어 콘텐츠가 실제 입력과 동일한지를 검증할 필요가 있다. That is, the input multimedia content may or may not be registered in the fingerprint database 124. In addition, the nearest fingerprint sequence searched by the fingerprint search unit 110 may or may not correspond to the multimedia actually input. Therefore, it is necessary to verify whether the multimedia content corresponding to the nearest fingerprint sequence is identical to the actual input.

그러므로, 상기 핑거프린트 검증부(130)는 입력에서 추출한 핑거프린트 수열과 검색된 것 중 가장 가까운 핑거프린트 수열 사이의 거리를 계산한 후, 그 거리 값을 기준으로 실제 이 둘이 같은 콘텐츠에 해당하는지를 판별한다.Therefore, the fingerprint verification unit 130 calculates a distance between the fingerprint sequence extracted from the input and the nearest fingerprint sequence among the searched ones, and then determines whether the two actually correspond to the same content based on the distance value. .

상기에서 사용된 멀티미디어는 도 2a와 같이 화질 저하가 있지만 속도 변화는 없는 멀티미디어, 도 2b와 같이 속도 변화가 있는 멀티미디어를 인식 대상으로 하고 있다. The multimedia used in the above is to recognize the multimedia as shown in Figure 2a, but there is no change in speed, multimedia with a change in speed as shown in Figure 2b.

그러나, 종래의 멀티미디 인식 장치는 손실 압축, 화면 크기, 영상 화질 저하가 있는 영상을 인식대상으로 하고 있기에 사용자가 영상의 일정 부분을 삭제하고, 다른 영상에서 가져와서 삽입하는 등의 편집이 가해지는 경우에는 인식할 수 없는 단점이 있다.However, since the conventional multimedia recognition apparatus recognizes an image having lossy compression, screen size, and image quality deterioration, the user may delete a portion of the image, insert it from another image, and edit the image. In this case, there is a disadvantage that cannot be recognized.

또한, 멀티미디어 인식 대상을 길이 변화가 없이 화질 저하, 손실 압축 등의 재생 시간의 변화 및 재생 순서의 변화가 없는 멀티미디어 콘텐츠로 한정하는 단점이 있다.
In addition, there is a disadvantage in that the multimedia recognition target is limited to multimedia contents without changing the length, changing the playing time such as image quality deterioration, lossy compression, and the like, without changing the playing order.

본 발명의 목적은 화질 저하, 손실 압축은 물론 속도 변화가 있는 멀티미디어 및 편집이 가해진 멀티미디어를 인식 대상으로 삼는 멀티미디어 인식 장치 및 방법을 제공하는데 있다SUMMARY OF THE INVENTION An object of the present invention is to provide a multimedia recognition apparatus and method that targets multimedia with reduced image quality, lossy compression, speed change, and multimedia with editing.

본 발명의 다른 목적은 편집이 가해진 사용자 제작 콘텐츠(User Created Contents, UCC)의 내부에 저작권 보호를 받는 영상이 존재할 경우 이를 검출할 수 있는 멀티미디어 인식 장치 및 방법을 제공하는데 있다.
Another object of the present invention is to provide an apparatus and method for recognizing multimedia when there is a copyright-protected image inside user created contents (UCC).

상기 목적들을 달성하기 위하여 본 발명에 따르면, 입력 영상의 각 프레임에서 핑거프린트를 추출하고, 상기 추출된 핑거프린트를 이용하여 상기 영상을 분절 단위로 나누는 영상 분절부, 상기 나누어진 각 분절을 노드로 설정하고, 각 노드의 관측변수와 숨겨진 변수를 설정하여 마르코프 랜덤 필드(MRF)를 구축하는 마르코프 랜덤 필드 구축부, 상기 구축된 마르코프 랜덤 필드의 확률 값을 최대화시키는 숨겨진 변수값

Figure 112010010065018-pat00001
을 추정하는 변수값 추정부, 상기 추정된 숨겨진 변수값을 이용하여 각 분절이 속하는 영상 및 그 영상에서의 위치를 인식하는 영상 인식부를 포함하는 멀티미디어 인식 장치가 제공된다. In order to achieve the above objects, according to the present invention, a fingerprint segment is extracted from each frame of an input image, and the segment is divided into segments using the extracted fingerprint, and each segment is divided into nodes. A Markov random field construction unit configured to construct a Markov random field (MRF) by setting observation variables and hidden variables of each node, and a hidden variable value that maximizes a probability value of the constructed Markov random field.
Figure 112010010065018-pat00001
And a variable value estimator for estimating a, and an image recognizer for recognizing an image to which each segment belongs and a position in the image by using the estimated hidden variable value.

상기 멀티미디어 인식 장치는 각 원본 영상의 분절에서 추출한 핑거프린트, 각 핑거프린트가 포함된 영상과 그 영상에서의 위치 정보가 저장된 데이터베이스를 더 포함하고, 상기 영상 인식부는 상기 데이터베이스에서 상기 숨겨진 변수값에 해당하는 핑거프린트 및 그 위치 정보를 추출하여 해당 영상을 인식한다.The multimedia recognition apparatus further includes a database in which a fingerprint extracted from a segment of each original image, an image including each fingerprint, and a database in which location information on the image is stored, and the image recognition unit corresponds to the hidden variable value in the database. The fingerprint and its location information are extracted to recognize the corresponding image.

상기 영상 분절부는 상기 영상의 각 프레임에서 핑거프린트를 추출하고, 상기 추출된 핑거프린트를 이용하여 분절경계 집합(B)을 구한 후, 상기 분절경계 집합을 이용하여 분절(S)을 정의한다.The image segmenter extracts a fingerprint from each frame of the image, obtains a segment boundary set B using the extracted fingerprint, and then defines a segment S using the segment boundary set.

상기 분절경계 집합(B)은

Figure 112011038455258-pat00002
를 이용하여 구하되, The segment boundary set (B) is
Figure 112011038455258-pat00002
Obtain it using

상기 v[k]는 각 프레임에서 추출된 핑거프린트,

Figure 112011038455258-pat00003
는 유클리드 거리이며,
Figure 112011038455258-pat00004
는 미리 선택된 문턱값이다.The v [k] is a fingerprint extracted in each frame,
Figure 112011038455258-pat00003
Is at the Euclidean street,
Figure 112011038455258-pat00004
Is a preselected threshold.

상기 분절(S)은

Figure 112010010065018-pat00005
을 이용하여 정의하되, 상기
Figure 112010010065018-pat00006
는 분절경계 집합에 있는 원소의 수이다.The segment (S) is
Figure 112010010065018-pat00005
Defined using the above
Figure 112010010065018-pat00006
Is the number of elements in the segment boundary set.

상기 마르코프 랜덤 필드 구축부는 각 분절을 노드로 설정하고, 각 노드와 이웃 노드 사이를 선분으로 연결한 후, 각 노드의 관측 변수 및 숨겨진 변수를 설정하여 마르코프 랜덤 필드를 구축한다.The Markov random field construction unit sets each segment as a node, connects each node to a neighboring node with a line segment, and then sets the observation variable and the hidden variable of each node to construct the Markov random field.

상기 관측변수는 각 노드에 속하는 프레임에서 추출한 핑거프린트 벡터의 수열이고, 상기 숨겨진 변수는 해당 노드가 핑거프린트 데이터베이스에 존재하는 몇 번째 핑거프린트 벡터에 해당하는지에 대한 추정치를 말한다.The observation variable is a sequence of fingerprint vectors extracted from a frame belonging to each node, and the hidden variable is an estimate of how many fingerprint vectors the node corresponds to in the fingerprint database.

상기 변수값 추정부는 각 노드의 숨겨진 변수와 이웃 노드의 숨겨진 변수 사이의 친화성 및 각 노드의 숨겨진 변수와 관측변수 사이의 친화성을 계산하여 친화성이 있는 경우 숨겨진 변수들의 주변 확률을 최대화시키는 숨겨진 변수값을 추정한다.The variable value estimator calculates the affinity between the hidden variable of each node and the hidden variable of the neighboring node, and the affinity between the hidden variable of each node and the observed variable, and maximizes the probability of the surroundings of the hidden variables when there is affinity. Estimate the variable value.

상기 각 노드의 숨겨진 변수와 이웃 노드의 숨겨진 변수 사이의 친화성

Figure 112010010065018-pat00007
Figure 112010010065018-pat00008
를 이용하여 구하되, 상기
Figure 112010010065018-pat00009
는 노드
Figure 112010010065018-pat00010
의 숨겨진 변수, 상기
Figure 112010010065018-pat00011
는 이웃 노드
Figure 112010010065018-pat00012
의 숨겨진 변수,
Figure 112010010065018-pat00013
Figure 112010010065018-pat00014
는 미리 설정된 매개변수이다.Affinity between hidden variables of each node and hidden variables of neighboring nodes
Figure 112010010065018-pat00007
silver
Figure 112010010065018-pat00008
Obtained using the above
Figure 112010010065018-pat00009
Is a node
Figure 112010010065018-pat00010
Hidden variables, said
Figure 112010010065018-pat00011
Is a neighbor node
Figure 112010010065018-pat00012
Hidden variables,
Figure 112010010065018-pat00013
Wow
Figure 112010010065018-pat00014
Is a preset parameter.

각 노드의 숨겨진 변수와 관측변수 사이의 친화성

Figure 112010010065018-pat00015
Figure 112010010065018-pat00016
를 이용하여 구하되, 상기
Figure 112010010065018-pat00017
Figure 112010010065018-pat00018
를 이용하여 구하고,
Figure 112010010065018-pat00019
는 i번째 분절에서 추출한 핑거프린트 벡터의 개수,
Figure 112010010065018-pat00020
는 핑거프린트 데이터베이스에 존재하는
Figure 112010010065018-pat00021
번째 핑거프린트 벡터이다.Affinity between hidden and observed variables in each node
Figure 112010010065018-pat00015
silver
Figure 112010010065018-pat00016
Obtained using the above
Figure 112010010065018-pat00017
Is
Figure 112010010065018-pat00018
Obtain it using
Figure 112010010065018-pat00019
Is the number of fingerprint vectors extracted from the i-th segment,
Figure 112010010065018-pat00020
Exists in the fingerprint database
Figure 112010010065018-pat00021
Second fingerprint vector.

상기 변수값 추정부는

Figure 112010010065018-pat00022
를 이용하여 확률 값을 최대화시키는 숨겨진 변수값
Figure 112010010065018-pat00023
을 추정한다.The variable value estimating unit
Figure 112010010065018-pat00022
Hidden variable value to maximize probability using
Figure 112010010065018-pat00023
Estimate

또한, 본 발명에 따르면, (a)입력 영상의 각 프레임에서 핑거프린트를 추출하고, 그 추출된 핑거프린트를 이용하여 분절을 정의하는 단계, (b)상기 정의된 각 분절을 노드로 설정하고, 각 노드의 관측변수와 숨겨진 변수를 설정하여 마르코프 랜덤 필드를 구축하는 단계, (c)상기 구축된 마르코프 랜덤 필드의 확률 값을 최대화시키는 숨겨진 변수값을 추정하는 단계, (d)상기 추정된 숨겨진 변수값을 이용하여 각 분절이 속하는 영상 및 그 영상에서의 위치를 인식하는 단계를 포함하는 멀티미디어 인식 방법이 제공된다. According to the present invention, (a) extracting a fingerprint from each frame of the input image, defining the segment using the extracted fingerprint, (b) setting each segment defined as a node, Constructing a Markov random field by setting observation variables and hidden variables of each node, (c) estimating a hidden variable value that maximizes a probability value of the constructed Markov random field, (d) the estimated hidden variable There is provided a multimedia recognition method comprising recognizing an image to which each segment belongs and a position in the image by using a value.

상기 (a)단계는, 상기 영상의 각 프레임에서 핑거프린트를 추출하는 단계, 현재 프레임과 인접 프레임의 핑거프린트간의 차가 미리 정해진 문턱치 이상인지의 여부를 이용하여 분절 경계 집합을 구하는 단계, 상기 구해진 분절경계 집합을 이용하여 분절을 정의하는 단계를 포함한다. The step (a) may include extracting a fingerprint from each frame of the image, obtaining a segment boundary set using whether the difference between the fingerprint of the current frame and the adjacent frame is greater than or equal to a predetermined threshold, and obtaining the segment. Defining a segment using a boundary set.

상기 (b)단계는, 상기 정의된 각 분절을 노드로 설정하고, 각 노드와 주위 노드 사이를 선분으로 연결하는 단계, 각 노드에 존재하는 프레임에서 추출한 핑거프린트 벡터의 수열을 관측변수로 설정하고, 해당 노드가 핑거프린트 데이터베이스에 존재하는 몇 번째 핑거프린트 벡터에 해당하는지에 대한 추정치를 숨겨진 변수로 설정하여 마르코프 랜덤 필드를 구축하는 단계를 포함한다. In step (b), each segment is defined as a node, and a connection between each node and surrounding nodes is performed as a line segment, and a sequence of fingerprint vectors extracted from a frame existing at each node is set as an observation variable. And constructing a Markov random field by setting an estimate of the number of fingerprint vectors present in the fingerprint database as a hidden variable.

상기 (c)단계는, 각 노드의 숨겨진 변수와 이웃 노드의 숨겨진 변수 사이의 친화성 및 각 노드의 숨겨진 변수와 관측변수 사이의 친화성을 계산하는 단계, 신뢰 전파(belief propagation) 알고리즘을 이용하여, 숨겨진 변수들의 주변 확률을 최대화시키는 숨겨진 변수값을 추정하는 단계를 포함한다.
In the step (c), the affinity between the hidden variables of each node and the hidden variables of neighboring nodes and the affinity between the hidden variables of each node and the observation variable are calculated using a trust propagation algorithm. Estimating a hidden variable value that maximizes the marginal probability of the hidden variables.

상술한 바와 같이 본 발명에 따르면, 화질 저하, 손실 압축은 물론 속도 변화가 있는 멀티미디어 및 편집이 가해진 멀티미디어를 인식할 수 있다.As described above, according to the present invention, it is possible to recognize multimedia having a deterioration in image quality, lossy compression, multimedia having a speed change, and multimedia edited thereto.

또한, 편집이 가해진 사용자 제작 콘텐츠(User Created Contents, UCC)의 내부에 저작권 보호를 받는 영상이 존재할 경우 이를 검출할 수 있다.
In addition, if there is a copyright protected video in the user-created content (User Created Contents, UCC) has been detected it can be detected.

도 1은 종래의 멀티미디어 인식 장치의 구성을 개략적으로 나타낸 블럭도.
도 2는 종래의 멀티미디어 인식 장치가 인식하는 영상을 나타낸 예시도.
도 3은 본 발명에 따른 멀티미디어 인식 장치의 구성을 개략적으로 나타낸 블럭도.
도 4는 본 발명에 따른 삭제 및 삽입이 있는 영상을 나타낸 도면.
도 5는 본 발명에 따른 멀티미디어 인식 방법을 나타낸 흐름도.
도 6은 본 발명에 따른 마르코프 랜덤 필드를 구축하는 방법을 나타낸 흐름도.
도 7은 본 발명에 따른 마르코프 랜덤 필드의 확률값을 최대화하는 숨겨진 변수값을 추정하는 방법을 나타낸 흐름도.
도 8은 본 발명에 따른 멀티미디어 인식 방법을 설명하기 위한 예시도.
1 is a block diagram schematically showing the configuration of a conventional multimedia recognition apparatus.
2 is an exemplary view showing an image recognized by a conventional multimedia recognition device.
Figure 3 is a block diagram schematically showing the configuration of a multimedia recognition apparatus according to the present invention.
4 is a view showing an image with deletion and insertion in accordance with the present invention.
5 is a flowchart illustrating a multimedia recognition method according to the present invention.
6 is a flowchart illustrating a method of constructing a Markov random field in accordance with the present invention.
7 is a flow diagram illustrating a method of estimating a hidden variable value that maximizes the probability value of a Markov random field in accordance with the present invention.
8 is an exemplary view for explaining a multimedia recognition method according to the present invention.

본 발명의 전술한 목적과 기술적 구성 및 그에 따른 작용 효과에 관한 자세한 사항은 본 발명의 명세서에 첨부된 도면에 의거한 이하 상세한 설명에 의해 보다 명확하게 이해될 것이다.
Details of the above-described objects and technical configurations of the present invention and the effects thereof according to the present invention will be more clearly understood by the following detailed description based on the accompanying drawings.

도 3은 본 발명에 따른 멀티미디어 인식 장치의 구성을 개략적으로 나타낸 블럭도, 도 4는 본 발명에 따른 삭제 및 삽입이 있는 영상을 나타낸 도면이다.3 is a block diagram schematically showing the configuration of a multimedia recognition apparatus according to the present invention, Figure 4 is a view showing an image with deletion and insertion in accordance with the present invention.

도 3을 참조하면, 멀티미디어 인식 장치는 영상 분절부(300), 마르코프 랜덤 필드 구축부(310), 변수값 추정부(320), 영상 인식부(330), 데이터베이스(340)를 포함한다.Referring to FIG. 3, the multimedia recognition apparatus includes an image segmentation unit 300, a Markov random field construction unit 310, a variable value estimator 320, an image recognition unit 330, and a database 340.

상기 데이터베이스(340)는 각 원본 영상의 분절들에서 추출한 핑거프린트 수열이 저장된 핑거프린트 데이터베이스(344), 각 핑거프린트 수열에 대해서 그 핑거프린트 수열이 어떤 영상의 어느 부분에서 추출된 것인지를 나타내는 정보가 저장된 메타-데이터 데이터베이스(348)를 포함한다.The database 340 includes a fingerprint database 344 in which a fingerprint sequence extracted from segments of each original image is stored, and information indicating in which image of the image the fingerprint sequence is extracted from each fingerprint sequence. Stored meta-data database 348.

상기 영상 분절부(300)는 입력 영상의 각 프레임에서 핑거프린트를 추출하고, 상기 추출된 핑거프린트를 이용하여 상기 영상을 분절 단위로 나눈다. The image segmentation unit 300 extracts a fingerprint from each frame of the input image, and divides the image into segments by using the extracted fingerprint.

여기서, 상기 입력 영상은 화질 저하는 있지만 속도 변화는 없는 영상, 속도 변화가 있는 영상은 물론 도 4와 같이 짧은 길이의 영상 클립이 삽입 또는 삭제되는 영상 등을 모두 포함한다. 또한, 상기 분절은 유사한 특성을 가지는 시간적으로 연속된 프레임들의 모임을 말한다.Here, the input image includes both an image having a deterioration in image quality but no speed change, an image having a speed change, as well as an image in which a short length image clip is inserted or deleted as shown in FIG. 4. In addition, the segment refers to a collection of temporally consecutive frames having similar characteristics.

상기 영상 분절부(300)는 상기 영상의 각 프레임에서 핑거프린트를 추출하고, 상기 추출된 핑거프린트를 이용한 수학식 1을 이용하여 분절경계 집합(B)을 구한다.The image segmentation unit 300 extracts a fingerprint from each frame of the image, and obtains a segment boundary set B by using Equation 1 using the extracted fingerprint.

Figure 112010010065018-pat00024
Figure 112010010065018-pat00024

여기에서는 입력된 영상이 K개의 프레임으로 구성되어 있고 k번째 프레임에서 추출한 D차원 실수 핑거프린트가 v[k]인 경우이고,

Figure 112011038455258-pat00025
는 유클리드 거리,
Figure 112011038455258-pat00026
는 미리 선택된 문턱값이다.In this case, the input image is composed of K frames, and the D-dimensional real fingerprint extracted from the k-th frame is v [k].
Figure 112011038455258-pat00025
At the street,
Figure 112011038455258-pat00026
Is a preselected threshold.

따라서, 상기 영상 분절부(300)는 수학식 1과 같이 현재 프레임의 핑커프린트와 인접 프레임의 핑거프린트간의 차가 문턱값 이상인 프레임을 모아서 분절 경계 집합을 구한다.Therefore, the image segmentation unit 300 obtains a segment boundary set by collecting frames having a difference of more than a threshold between the pinkerprint of the current frame and the fingerprint of the neighboring frame, as shown in Equation 1 below.

그런 다음 상기 영상 분절부(300)는 상기 구해진 분절경계 집합을 이용하여 수학식 2와 같이 분절(S)을 정의한다.The image segmentation unit 300 then defines the segment S as shown in Equation 2 using the obtained segment boundary set.

Figure 112010010065018-pat00027
Figure 112010010065018-pat00027

여기서, 상기

Figure 112010010065018-pat00028
는 분절경계 집합(B)에 있는 원소의 수를 말한다.Where
Figure 112010010065018-pat00028
Is the number of elements in the segment boundary set (B).

상기 마르코프 랜덤 필드 구축부(310)는 상기 영상 분절부에서 나뉘어진 각 분절간의 확률 관계를 표현하기 위해 마르코프 랜덤 필드(MRF,Markov random field)를 구축한다.The Markov random field constructing unit 310 constructs a Markov random field (MRF) to express the probability relationship between the segments divided by the image segment.

즉, 상기 마르코프 랜덤 필드 구축부(310)는 각 분절을 노드로 설정하고, 각 노드와 주위 노드 사이를 선분(edge)으로 연결한다. 이때, i번째 노드

Figure 112010010065018-pat00029
의 이웃노드(neighbor nodes)는 이 노드와 선분으로 연결되어 있는 노드로 수학식 3과 같이 정의된다.That is, the Markov random field construction unit 310 sets each segment as a node, and connects each node with a peripheral node with an edge. Where i-th node
Figure 112010010065018-pat00029
The neighbor nodes of are nodes connected to the node by line segments and are defined as in Equation 3.

Figure 112010010065018-pat00030
Figure 112010010065018-pat00030

예를 들어, i번째 노드를 i가 0 또는

Figure 112010010065018-pat00031
이 아닌 경우에는 (i-1)번째 노드 및 (i+1)번째 노드를 이웃 노드로 삼는다. 0번째 노드는 1번째 노드와
Figure 112010010065018-pat00032
째 노드를 이웃으로,
Figure 112010010065018-pat00033
째 노드는
Figure 112010010065018-pat00034
번째 노드와 0번째 노드를 이웃 노드로 삼는다. For example, if the i node is 0 or 0
Figure 112010010065018-pat00031
If not, the (i-1) th node and the (i + 1) th node are considered neighboring nodes. Node 0 is the first node
Figure 112010010065018-pat00032
Node as a neighbor,
Figure 112010010065018-pat00033
Node is
Figure 112010010065018-pat00034
The first node and the 0th node are neighbors.

상기와 같이 형성된 마르코프 랜덤 필드에서 각각의 노드는 관측변수(observation variable)와 숨겨진 변수(hidden variable)를 가진다. In the Markov random field formed as above, each node has an observation variable and a hidden variable.

상기 관측변수

Figure 112011038455258-pat00035
는 각 노드에 속하는 프레임에서 추출한 핑거프린트 벡터의 수열을 말하고, 각 노드의 관측값은 화살표로 연결된다. 상기 숨겨진 변수
Figure 112011038455258-pat00036
는 해당 노드가 핑거프린트 데이터베이스(344)에 존재하는 몇 번째 핑거프린트 벡터에 해당하는지에 대한 추정치로, 핑거프린트 데이터베이스(344)에 있는 임의의 핑거프린트를 가리킬 수 있다. The observation variable
Figure 112011038455258-pat00035
Denotes a sequence of fingerprint vectors extracted from a frame belonging to each node, and observations of each node are connected by arrows. The hidden variable
Figure 112011038455258-pat00036
Is an estimate of the number of fingerprint vectors that the node corresponds to in the fingerprint database 344 and may refer to any fingerprint in the fingerprint database 344.

상기 변수값 추정부(320)는 상기 마르코프 랜덤 필드 구축부(310)에서 구축된 마르코프 랜덤 필드의 확률 값을 최대화시키는 숨겨진 변수값을 추정하는 역할을 수행한다. The variable value estimator 320 estimates a hidden variable value that maximizes the probability value of the Markov random field constructed by the Markov random field builder 310.

즉, 상기 변수값 추정부(320)는 각 노드의 숨겨진 변수와 이웃 노드의 숨겨진 변수 사이의 친화성 및 각 노드의 숨겨진 변수와 관측변수 사이의 친화성을 계산하여 숨겨진 변수들의 주변 확률을 최대화시키는 숨겨진 변수값을 추정하며, 본 발명에서는 신뢰 전파(belief propagation) 알고리즘을 이용하여 수많은 추정치 중에서 주변 확률을 최대화시키는 추정치를 계산한다. That is, the variable value estimator 320 calculates the affinity between the hidden variable of each node and the hidden variable of the neighboring node, and the affinity between the hidden variable of each node and the observation variable, thereby maximizing the neighbor probability of the hidden variables. A hidden parameter value is estimated, and the present invention calculates an estimate that maximizes the marginal probability among numerous estimates using a belief propagation algorithm.

먼저 상기 변수값 추정부(320)는 노드

Figure 112010010065018-pat00037
의 숨겨진 변수
Figure 112010010065018-pat00038
와 이웃 노드
Figure 112010010065018-pat00039
의 숨겨진 변수
Figure 112010010065018-pat00040
사이의 친화성
Figure 112010010065018-pat00041
을 수학식 4를 이용하여 구한다.First, the variable value estimator 320 is a node.
Figure 112010010065018-pat00037
Hidden variables
Figure 112010010065018-pat00038
And neighbor nodes
Figure 112010010065018-pat00039
Hidden variables
Figure 112010010065018-pat00040
Affinity between
Figure 112010010065018-pat00041
Is obtained using Equation 4.

Figure 112010010065018-pat00042
Figure 112010010065018-pat00042

여기서,

Figure 112010010065018-pat00043
Figure 112010010065018-pat00044
는 미리 설정된 매개변수이고, 친화성은
Figure 112010010065018-pat00045
Figure 112010010065018-pat00046
가 핑거프린트 데이터베이스 상에서 물리적으로 얼마나 가까운 위치에 있는가를 측정하는 것이다. 이를 위해 핑거프린트 데이터베이스(344)는 원본 영상에서 추출한 핑거프린트를 시간적 순서를 보존한 상태로 추가하여 생성한다.here,
Figure 112010010065018-pat00043
Wow
Figure 112010010065018-pat00044
Is a preset parameter, and the affinity is
Figure 112010010065018-pat00045
Wow
Figure 112010010065018-pat00046
Is a measure of how close is physically to the fingerprint database. To this end, the fingerprint database 344 generates and adds the fingerprint extracted from the original image with the temporal order preserved.

또한, 상기 변수값 추정부(320)는 숨겨진 변수

Figure 112010010065018-pat00047
와 관측변수
Figure 112010010065018-pat00048
사이의 친화성
Figure 112010010065018-pat00049
을 수학식 5를 이용하여 구한다.In addition, the variable value estimator 320 is a hidden variable.
Figure 112010010065018-pat00047
And observation variables
Figure 112010010065018-pat00048
Affinity between
Figure 112010010065018-pat00049
Is obtained using Equation 5.

Figure 112010010065018-pat00050
Figure 112010010065018-pat00050

여기서, 상기

Figure 112010010065018-pat00051
는 실험적으로 설정되는 매개변수,
Figure 112010010065018-pat00052
Figure 112010010065018-pat00053
에 해당하는 분절에서 추출된 핑거프린트 수열로 설정된
Figure 112010010065018-pat00054
와 핑거프린트 데이터베이스(344)의 u번째에서 시작하는 핑거프린트 수열 사이의 유사도이다. Where
Figure 112010010065018-pat00051
Is an experimentally set parameter,
Figure 112010010065018-pat00052
Is
Figure 112010010065018-pat00053
Set to the fingerprint sequence extracted from the segment corresponding to
Figure 112010010065018-pat00054
And the fingerprint sequence starting at the u th of the fingerprint database 344.

상기 유사도

Figure 112010010065018-pat00055
는 수학식 6을 이용하여 구한다. The similarity
Figure 112010010065018-pat00055
Is obtained using Equation 6.

Figure 112010010065018-pat00056
Figure 112010010065018-pat00056

여기서, 상기

Figure 112010010065018-pat00057
는 i번째 분절에서 추출한 핑거프린트 벡터의 개수,
Figure 112010010065018-pat00058
은 m번째 핑거프링트에 대한 관측변수,
Figure 112010010065018-pat00059
는 핑거프린트 데이터베이스(344)에 존재하는
Figure 112010010065018-pat00060
번째 핑거프린트 벡터이다. Where
Figure 112010010065018-pat00057
Is the number of fingerprint vectors extracted from the i-th segment,
Figure 112010010065018-pat00058
Is the observed variable for the m fingerprint
Figure 112010010065018-pat00059
Is present in the fingerprint database 344
Figure 112010010065018-pat00060
Second fingerprint vector.

상기 수학식 6의 유사도는 속도 변화가 있는 영상 입력도 인식하기 위해 미리 설정된 최소 속도

Figure 112010010065018-pat00061
, 최대 속도
Figure 112010010065018-pat00062
를 가정하고 정해진 것이다. The similarity in Equation 6 is a minimum speed set in advance to recognize an image input having a speed change.
Figure 112010010065018-pat00061
Speed
Figure 112010010065018-pat00062
Is assumed.

상기 수학식 5, 6과 같이 정의된 친화성이 있으면, 상기 변수값 추정부(320)는 상기 마르코프 랜덤 필드에 있는 숨겨진 변수들의 주변 확률(marginal probability)을 최대화시키는 숨겨진 변수값

Figure 112010010065018-pat00063
을 수학식 7을 이용하여 추정한다. If there is an affinity defined as in Equations 5 and 6, the variable value estimator 320 hides a hidden variable value that maximizes the marginal probability of hidden variables in the Markov random field.
Figure 112010010065018-pat00063
Is estimated using Equation 7.

Figure 112010010065018-pat00064
Figure 112010010065018-pat00064

이때, 상기 변수값 추정부(320)는 주변확률을 최대화시키는 숨겨진 변수값을 신뢰 전파(belief propagation) 방법 등을 이용하여 추정한다. In this case, the variable value estimator 320 estimates a hidden variable value that maximizes the peripheral probability by using a trust propagation method or the like.

상기 영상 인식부(330)는 상기 변수값 추정부(320)에서 추정된 숨겨진 변수값을 이용하여 각 분절이 속하는 영상 및 그 영상의 어느 부분에서 추출된 것인지를 인식한다.The image recognition unit 330 recognizes the image to which each segment belongs and from which part of the image, using the hidden variable value estimated by the variable value estimating unit 320.

즉, 상기 핑거프린트 데이터베이스(344)에는 원본 영상에서 얻어낸 분절에서 추출한 핑거프린트가 저장되어 있고, 숨겨진 변수 값

Figure 112011038455258-pat00065
은 데이터베이스(340)의 어떤 분절이 입력된 영상의 i번째 분절에 해당하는가를 의미하므로, 신뢰 전파(belief propagation) 알고리즘으로 숨겨진 변수값을 결정하면, 상기 영상 인식부는 상기
Figure 112011038455258-pat00066
값이 가리키는 데이터베이스의 분절이 곧 i번째 분절에 해당된다고 판단한다. 물론
Figure 112011038455258-pat00067
가 가리키는 데이터베이스(340)의 분절이 어느 영상의 어느 부분인가는 메타데이터 데이터베이스(348)를 이용하여 판단한다.
That is, the fingerprint database 344 stores the fingerprint extracted from the segment obtained from the original image, and hides the hidden variable value.
Figure 112011038455258-pat00065
Denotes which segment of the database 340 corresponds to the i-th segment of the input image. Therefore, when determining a hidden variable value by a trust propagation algorithm, the image recognition unit may determine the segment.
Figure 112011038455258-pat00066
It is determined that the segment of the database indicated by the value corresponds to the i-th segment. sure
Figure 112011038455258-pat00067
The segment of the database 340 indicated by which part of the image is determined using the metadata database 348.

도 5는 본 발명에 따른 멀티미디어 인식 방법을 나타낸 흐름도이다.5 is a flowchart illustrating a multimedia recognition method according to the present invention.

도 5를 참조하면, 멀티미디어 인식 장치는 입력된 영상을 유사한 특성을 가지는 연속된 프레임의 모임인 분절 단위로 나눈다(S500). 즉, 상기 멀티미디어 인식 장치는 입력 영상의 각 프레임에서 핑거프린트를 추출하고, 상기 추출한 현재 프레임과 인접 프레임의 핑거프린트간의 차가 임계치 이상인지의 여부를 이용하여 분절 경계 집합을 구한다. 그런 다음 상기 멀티미디어 인식 장치는 상기 구해진 분절경계 집합을 이용하여 분절을 정의한다. Referring to FIG. 5, the multimedia recognition apparatus divides an input image into segment units, which are a collection of consecutive frames having similar characteristics (S500). That is, the multimedia recognition apparatus extracts a fingerprint from each frame of the input image and obtains a segment boundary set using whether the difference between the extracted current frame and the fingerprint of the adjacent frame is greater than or equal to a threshold. The multimedia recognition apparatus then defines a segment using the obtained segment boundary set.

상기 S500의 수행 후, 상기 멀티미디어 인식 장치는 상기 나뉘어진 각 분절을 노드로 설정하고, 각 노드의 관측변수와 숨겨진 변수를 설정하여 마르코프 랜덤 필드를 구축한다(S502). 상기 멀티미디어 인식 장치가 마르코프 랜덤 필드를 구축하는 방법에 대한 상세한 설명은 도 6을 참조하기로 한다. After performing the operation S500, the multimedia recognition apparatus sets the divided segments as nodes and sets the observation variable and the hidden variable of each node to construct the Markov random field (S502). A detailed description of how the multimedia recognition apparatus constructs a Markov random field will be given with reference to FIG. 6.

상기 S502의 수행 후, 상기 멀티미디어 인식 장치는 상기 구축된 마르코프 랜덤 필드의 확률 값을 최대화시키는 숨겨진 변수값을 추정한다(S504). 상기 숨겨진 변수값을 추정하는 방법에 대한 상세한 설명은 도 7을 참조하기로 한다.After performing S502, the multimedia recognition apparatus estimates a hidden variable value that maximizes a probability value of the constructed Markov random field (S504). A detailed description of the method of estimating the hidden variable value will be made with reference to FIG. 7.

상기 S504의 수행 후, 상기 멀티미디어 인식 장치는 상기 추정된 숨겨진 변수값을 이용하여 각 분절이 속하는 영상 및 그 영상에서의 위치를 확인한다(S506).
After performing S504, the multimedia apparatus recognizes an image to which each segment belongs and a position in the image using the estimated hidden variable value (S506).

도 6은 본 발명에 따른 마르코프 랜덤 필드를 구축하는 방법을 나타낸 흐름도이다. 6 is a flowchart illustrating a method of constructing a Markov random field according to the present invention.

도 6을 참조하면, 멀티미디어 인식 장치는 각 분절을 노드로 설정하고(S600), 각 노드와 주위 노드 사이를 선분으로 연결한다(S602).Referring to FIG. 6, the multimedia recognition apparatus sets each segment as a node (S600), and connects each node with a surrounding node with a line segment (S602).

그런 다음 상기 멀티미디어 인식 장치는 각 노드의 관측 변수와 숨겨진 변수를 설정하여(S604), 마르코프 랜덤 필드를 구축한다(S606).Then, the multimedia recognition apparatus sets the observation variable and the hidden variable of each node (S604) to build a Markov random field (S606).

즉, 상기 멀티미디어 인식 장치는 각 노드의 분절에 존재하는 프레임에서 추출한 핑거프린트 벡터의 수열을 관측변수로 설정하고, 해당 노드가 핑거프린트 데이터베이스에 존재하는 몇 번째 핑거프린트 벡터에 해당하는지에 대한 추정치를 숨겨진 변수로 설정하여 마르코프 랜덤 필드를 구축한다.
That is, the multimedia recognition apparatus sets a sequence of fingerprint vectors extracted from a frame existing in a segment of each node as an observation variable, and estimates how many fingerprint vectors the node corresponds to in a fingerprint database. Construct a Markov random field by setting it to a hidden variable.

도 7은 본 발명에 따른 마르코프 랜덤 필드의 확률값을 최대화하는 숨겨진 변수값을 추정하는 방법을 나타낸 흐름도이다. 7 is a flowchart illustrating a method of estimating a hidden variable value that maximizes a probability value of a Markov random field according to the present invention.

도 7을 참조하면, 멀티미디어 인식 장치는 각 노드의 숨겨진 변수와 이웃 노드의 숨겨진 변수 사이의 친화성을 계산하고(S700), 각 노드의 숨겨진 변수와 관측변수 사이의 친화성을 계산한다(S702). 상기 각 노드의 숨겨진 변수와 이웃 노드의 숨겨진 변수 사이의 친화성은 현재 노드의 숨겨진 변수와 이웃 노드의 숨겨진 변수가 핑거프린트 데이터베이스 상에서 물리적으로 얼마나 가까운 위치에 있는가를 측정하는 것이다.Referring to FIG. 7, the multimedia apparatus recognizes affinity between a hidden variable of each node and a hidden variable of a neighboring node (S700), and calculates an affinity between a hidden variable of each node and an observation variable (S702). . The affinity between the hidden variable of each node and the hidden variable of the neighboring node is a measure of how close physically the hidden variable of the current node and the hidden variable of the neighboring node are physically on the fingerprint database.

상기 각 노드의 숨겨진 변수와 관측변수 사이의 친화성은 관측변수와 숨겨진 변수 사이의 유사도를 이용하여 구한다.  The affinity between the hidden variable and the observed variable of each node is calculated using the similarity between the observed variable and the hidden variable.

상기 각 노드의 숨겨진 변수와 이웃 노드의 숨겨진 변수 사이의 친화성과 각 노드의 숨겨진 변수와 관측변수 사이의 친화성을 구하는 순서는 변경가능하다.The order of obtaining the affinity between the hidden variable of each node and the hidden variable of the neighboring node and the affinity between the hidden variable of each node and the observation variable can be changed.

상기 S702의 수행 후, 상기 멀티미디어 인식 장치는 숨겨진 변수들의 주변 확률을 최대화시키는 숨겨진 변수값을 추정한다(S704). 이때, 상기 멀티미디어 인식 장치는 신뢰 전파(belief propagation) 알고리즘을 이용하여 숨겨진 변수값을 추정하게 된다.After the operation of S702, the multimedia recognition apparatus estimates a hidden variable value that maximizes a neighbor probability of hidden variables (S704). In this case, the multimedia recognition apparatus estimates a hidden variable value using a trust propagation algorithm.

상기와 같이 멀티미디어 인식 장치는 각 입력 영상들을 분절화 한 후 각 분절별로 이 분절이 핑거프린트 데이터베이스의 어느 부분과 일치하는지를 상기 수학식 7과 같은 기준으로 추출한다.
As described above, the multimedia recognizing apparatus segments each input image and extracts, based on Equation 7, which segment corresponds to which part of the fingerprint database.

도 8은 본 발명에 따른 멀티미디어 인식 방법을 설명하기 위한 예시도이다.8 is an exemplary view for explaining a multimedia recognition method according to the present invention.

도 8을 참조하면, a)와 같은 영상이 입력되면, 멀티미디어 인식 장치는 상기 영상을 b)와 같이 분절 단위로 나눈다. 즉, 상기 멀티미디어 인식 장치는 유사한 특성을 가진 연속된 프레임으로 제1 분절(810), 제2 분절(820), 제3분절(830), 제4분절(840)으로 나눈다.Referring to FIG. 8, when an image such as a) is input, the multimedia recognition apparatus divides the image into segments as shown in b). That is, the multimedia recognition apparatus divides the first segment 810, the second segment 820, the third segment 830, and the fourth segment 840 into consecutive frames having similar characteristics.

그런 다음 상기 멀티미디어 인식 장치는 c)와 같이 제1 분절(810)을 제1 노드(

Figure 112010010065018-pat00068
), 제2 분절(820)을 제2 노드(
Figure 112010010065018-pat00069
), 제3분절(830)을 제3 노드(
Figure 112010010065018-pat00070
), 제4분절(840)을 제4 노드(
Figure 112010010065018-pat00071
)로 각각 설정하고, 각 노드와 주위 노드 사이를 선분으로 연결한다. 이때, 처음과 마지막 노드가 아닌 노드들은 모두 그 양 옆의 노드를 이웃으로 삼고, 한 노드에 대해 화살표가 없는 선분으로 연결된 노드들은 모두 그 노드의 이웃 노드들이다.Then, the multimedia apparatus recognizes the first segment 810 as the first node (c).
Figure 112010010065018-pat00068
), The second segment 820 to the second node (
Figure 112010010065018-pat00069
), The third segment 830 is replaced by a third node (
Figure 112010010065018-pat00070
), The fourth segment 840 is replaced by a fourth node (
Figure 112010010065018-pat00071
), And connect each node and surrounding nodes with a line segment. At this time, all nodes other than the first and last nodes have neighboring nodes as neighbors, and nodes connected by line segments without arrows to all nodes are neighbor nodes of the node.

그리고, 각 노드의 숨겨진 변수와 이웃 노드의 숨겨진 변수 사이의 친화성

Figure 112010010065018-pat00072
, 각 노드의 숨겨진 변수와 관측변수 사이의 친화성
Figure 112010010065018-pat00073
이 표시된 마르코프 랜덤 필드가 구축된다.
And, the affinity between the hidden variables of each node and the hidden variables of neighboring nodes
Figure 112010010065018-pat00072
, The affinity between the hidden and observed variables of each node
Figure 112010010065018-pat00073
This marked Markov random field is constructed.

이와 같이, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
As such, those skilled in the art will appreciate that the present invention can be implemented in other specific forms without changing the technical spirit or essential features thereof. Therefore, the above-described embodiments are to be understood as illustrative in all respects and not as restrictive. The scope of the present invention is shown by the following claims rather than the detailed description, and all changes or modifications derived from the meaning and scope of the claims and their equivalents should be construed as being included in the scope of the present invention. do.

100 : 핑거프린트 추출부 110 : 핑거프린트 검출부
120, 340 : 데이터베이스 130 : 핑거프린트 검증부
300 : 영상 분절부 310 : 마르코프 랜덤 필드 구축부
320 : 변수값 추정부 330 : 영상 인식부
100: fingerprint extraction unit 110: fingerprint detection unit
120, 340: database 130: fingerprint verification unit
300: image segmentation unit 310: Markov random field construction unit
320: variable value estimator 330: image recognition unit

Claims (16)

입력 영상의 각 프레임에서 핑거프린트를 추출하고, 상기 추출된 핑거프린트를 이용하여 상기 영상을 분절 단위로 나누는 영상 분절부;
상기 나누어진 각 분절을 노드로 설정하고, 각 노드의 관측변수
Figure 112010010065018-pat00074
와 숨겨진 변수
Figure 112010010065018-pat00075
를 설정하여 마르코프 랜덤 필드(MRF)를 구축하는 마르코프 랜덤 필드 구축부;
상기 구축된 마르코프 랜덤 필드의 확률 값을 최대화시키는 숨겨진 변수값
Figure 112010010065018-pat00076
을 추정하는 변수값 추정부;및
상기 추정된 숨겨진 변수값을 이용하여 각 분절이 속하는 영상 및 그 영상에서의 위치를 인식하는 영상 인식부;
를 포함하는 멀티미디어 인식 장치.
An image segmentation unit for extracting a fingerprint from each frame of an input image and dividing the image into segments by using the extracted fingerprint;
Set each of the divided segments as nodes, and observe variables of each node.
Figure 112010010065018-pat00074
And hidden variables
Figure 112010010065018-pat00075
A Markov random field constructing unit configured to construct a Markov random field MRF;
Hidden variable value to maximize the probability value of the constructed Markov random field
Figure 112010010065018-pat00076
A variable value estimator for estimating a value; and
An image recognition unit recognizing an image to which each segment belongs and a position in the image by using the estimated hidden variable value;
Multimedia recognition device comprising a.
제1항에 있어서,
각 원본 영상의 분절에서 추출한 핑거프린트, 각 핑거프린트가 포함된 영상과 그 영상에서의 위치 정보가 저장된 데이터베이스를 더 포함하고,
상기 영상 인식부는 상기 데이터베이스에서 상기 숨겨진 변수값에 해당하는 핑거프린트 및 그 위치 정보를 추출하여 해당 영상을 인식하는 것을 특징으로 하는 멀티미디어 인식 장치.
The method of claim 1,
A fingerprint extracted from the segment of each original image, an image including each fingerprint, and a database storing position information therein;
And the image recognition unit extracts a fingerprint corresponding to the hidden parameter value and its location information from the database to recognize the corresponding image.
제1항에 있어서,
상기 영상 분절부는 상기 영상의 각 프레임에서 핑거프린트를 추출하고, 상기 추출된 핑거프린트를 이용하여 분절경계 집합(B)을 구한 후, 상기 분절경계 집합을 이용하여 분절(S)을 정의하는 것을 특징으로 하는 멀티미디어 인식 장치.
The method of claim 1,
The image segmenter extracts a fingerprint from each frame of the image, obtains a segment boundary set (B) using the extracted fingerprint, and then defines a segment (S) using the segment boundary set. Multimedia recognition device.
제3항에 있어서,
상기 분절경계 집합(B)은,
Figure 112011038455258-pat00077

를 이용하여 구하며,
상기 v[k]는 각 프레임에서 추출된 핑거프린트이고,
Figure 112011038455258-pat00078
는 유클리드 거리이며,
Figure 112011038455258-pat00079
는 미리 선택된 문턱값이고, K는 프레임의 개수이며,
Figure 112011038455258-pat00080
Figure 112011038455258-pat00081
번째 프레임인 것을 특징으로 하는 멀티미디어 인식 장치.
The method of claim 3,
The segment boundary set (B),
Figure 112011038455258-pat00077

Obtained using
V [k] is a fingerprint extracted in each frame,
Figure 112011038455258-pat00078
Is at the Euclidean street,
Figure 112011038455258-pat00079
Is the preselected threshold, K is the number of frames,
Figure 112011038455258-pat00080
silver
Figure 112011038455258-pat00081
And a second frame.
제3항에 있어서,
상기 분절(S)은
Figure 112010010065018-pat00082
를 이용하여 정의하되, 상기
Figure 112010010065018-pat00083
는 분절경계 집합에 있는 원소의 수인 것을 특징으로 하는 멀티미디어 인식 장치.
The method of claim 3,
The segment (S) is
Figure 112010010065018-pat00082
Is defined using the above
Figure 112010010065018-pat00083
Is the number of elements in the segment boundary set.
제1항에 있어서,
상기 마르코프 랜덤 필드 구축부는 각 분절을 노드로 설정하고, 각 노드와 이웃 노드 사이를 선분으로 연결한 후, 각 노드의 관측변수
Figure 112010010065018-pat00084
및 숨겨진 변수
Figure 112010010065018-pat00085
를 설정하여 마르코프 랜덤 필드를 구축하는 것을 특징으로 하는 멀티미디어 인식 장치.
The method of claim 1,
The Markov random field construction unit sets each segment as a node, connects each node with a neighboring node with a line segment, and then observes an observation variable of each node.
Figure 112010010065018-pat00084
And hidden variables
Figure 112010010065018-pat00085
And constructing a Markov random field by setting a.
제6항에 있어서,
상기 관측변수
Figure 112010010065018-pat00086
는 각 노드에 속하는 프레임에서 추출한 핑거프린트 벡터의 수열인 것을 특징으로 하는 멀티미디어 인식 장치.
The method of claim 6,
The observation variable
Figure 112010010065018-pat00086
Is a sequence of fingerprint vectors extracted from a frame belonging to each node.
제6항에 있어서,
상기 숨겨진 변수
Figure 112010010065018-pat00087
는 해당 노드가 핑거프린트 데이터베이스에 존재하는 몇 번째 핑거프린트 벡터에 해당하는지에 대한 추정치인 것을 특징으로 하는 멀티미디어 인식 장치.
The method of claim 6,
The hidden variable
Figure 112010010065018-pat00087
Is an estimate of which fingerprint vector the node corresponds to in the fingerprint database.
제1항에 있어서,
상기 변수값 추정부는 각 노드의 숨겨진 변수와 이웃 노드의 숨겨진 변수 사이의 친화성 및 각 노드의 숨겨진 변수와 관측변수 사이의 친화성을 계산하여 친화성이 있는 경우 숨겨진 변수들의 주변 확률을 최대화시키는 숨겨진 변수값을 추정하는 것을 특징으로 하는 멀티미디어 인식 장치.
The method of claim 1,
The variable value estimator calculates the affinity between the hidden variable of each node and the hidden variable of the neighboring node, and the affinity between the hidden variable of each node and the observed variable, and maximizes the probability of the surroundings of the hidden variables when there is affinity. Multimedia recognition apparatus, characterized in that for estimating the parameter value.
제9항에 있어서,
상기 각 노드의 숨겨진 변수와 이웃 노드의 숨겨진 변수 사이의 친화성
Figure 112010010065018-pat00088
Figure 112010010065018-pat00089
를 이용하여 구하되,
상기
Figure 112010010065018-pat00090
는 노드
Figure 112010010065018-pat00091
의 숨겨진 변수, 상기
Figure 112010010065018-pat00092
는 이웃 노드
Figure 112010010065018-pat00093
의 숨겨진 변수,
Figure 112010010065018-pat00094
Figure 112010010065018-pat00095
는 미리 설정된 매개변수,
Figure 112010010065018-pat00096
는 i번째 분절에서 추출한 핑거프린트 벡터의 개수인 것을 특징으로 하는 멀티미디어 인식 장치.
10. The method of claim 9,
Affinity between hidden variables of each node and hidden variables of neighboring nodes
Figure 112010010065018-pat00088
silver
Figure 112010010065018-pat00089
Obtain it using
remind
Figure 112010010065018-pat00090
Is a node
Figure 112010010065018-pat00091
Hidden variables, said
Figure 112010010065018-pat00092
Is a neighbor node
Figure 112010010065018-pat00093
Hidden variables,
Figure 112010010065018-pat00094
Wow
Figure 112010010065018-pat00095
Is a preset parameter,
Figure 112010010065018-pat00096
Is the number of fingerprint vectors extracted from the i-th segment.
제9항에 있어서,
각 노드의 숨겨진 변수와 관측변수 사이의 친화성
Figure 112010010065018-pat00097
Figure 112010010065018-pat00098
를 이용하여 구하되,
상기
Figure 112010010065018-pat00099
Figure 112010010065018-pat00100
를 이용하여 구하고,
Figure 112010010065018-pat00101
는 실험적으로 설정되는 매개변수,
Figure 112010010065018-pat00102
는 미리 설정된 최소 속도,
Figure 112010010065018-pat00103
는 미리 설정된 최대 속도,
Figure 112010010065018-pat00104
는 i번째 분절에서 추출한 핑거프린트 벡터의 개수,
Figure 112010010065018-pat00105
은 m번째 핑거프링트에 대한 관측변수,
Figure 112010010065018-pat00106
는 핑거프린트 데이터베이스에 존재하는
Figure 112010010065018-pat00107
번째 핑거프린트 벡터인 것을 특징으로 하는 멀티미디어 인식 장치.
10. The method of claim 9,
Affinity between hidden and observed variables in each node
Figure 112010010065018-pat00097
silver
Figure 112010010065018-pat00098
Obtain it using
remind
Figure 112010010065018-pat00099
Is
Figure 112010010065018-pat00100
Obtain it using
Figure 112010010065018-pat00101
Is an experimentally set parameter,
Figure 112010010065018-pat00102
Is the preset minimum speed,
Figure 112010010065018-pat00103
Is the preset maximum speed,
Figure 112010010065018-pat00104
Is the number of fingerprint vectors extracted from the i-th segment,
Figure 112010010065018-pat00105
Is the observed variable for the m fingerprint
Figure 112010010065018-pat00106
Exists in the fingerprint database
Figure 112010010065018-pat00107
And a second fingerprint vector.
제1항에 있어서,
상기 변수값 추정부는
Figure 112010010065018-pat00108
를 이용하여 확률 값을 최대화시키는 숨겨진 변수값
Figure 112010010065018-pat00109
을 추정하는 것을 특징으로 하는 멀티미디어 인식 장치.
The method of claim 1,
The variable value estimating unit
Figure 112010010065018-pat00108
Hidden variable value to maximize probability using
Figure 112010010065018-pat00109
Multimedia recognition apparatus, characterized in that for estimating.
(a)입력 영상의 각 프레임에서 핑거프린트를 추출하고, 그 추출된 핑거프린트를 이용하여 분절을 정의하는 단계;
(b)상기 정의된 각 분절을 노드로 설정하고, 각 노드의 관측변수와 숨겨진 변수를 설정하여 마르코프 랜덤 필드를 구축하는 단계;
(c)상기 구축된 마르코프 랜덤 필드의 확률 값을 최대화시키는 숨겨진 변수값을 추정하는 단계;및
(d)상기 추정된 숨겨진 변수값을 이용하여 각 분절이 속하는 영상 및 그 영상에서의 위치를 인식하는 단계;
를 포함하는 멀티미디어 인식 방법.
(a) extracting a fingerprint from each frame of the input image and defining a segment using the extracted fingerprint;
(b) setting each segment defined as a node, and constructing a Markov random field by setting observation variables and hidden variables of each node;
(c) estimating a hidden variable value that maximizes the probability value of the constructed Markov random field; and
(d) recognizing an image to which each segment belongs and a position in the image by using the estimated hidden variable value;
Multimedia recognition method comprising a.
제13항에 있어서,
상기 (a)단계는, 상기 영상의 각 프레임에서 핑거프린트를 추출하는 단계;
현재 프레임과 인접 프레임의 핑거프린트간의 차가 미리 정해진 문턱치 이상인지의 여부를 이용하여 분절 경계 집합을 구하는 단계;및
상기 구해진 분절경계 집합을 이용하여 분절을 정의하는 단계;를 포함하는 하는 것을 특징으로 하는 멀티미디어 인식 방법.
The method of claim 13,
Step (a) may include extracting a fingerprint from each frame of the image;
Obtaining a segment boundary set using whether a difference between a current frame and a fingerprint of an adjacent frame is greater than or equal to a predetermined threshold; and
Defining a segment using the obtained segment boundary set; Multimedia recognition method comprising a.
제13항에 있어서,
상기 (b)단계는,
상기 정의된 각 분절을 노드로 설정하고, 각 노드와 주위 노드 사이를 선분으로 연결하는 단계;
각 노드에 존재하는 프레임에서 추출한 핑거프린트 벡터의 수열을 관측변수로 설정하고, 해당 노드가 핑거프린트 데이터베이스에 존재하는 몇 번째 핑거프린트 벡터에 해당하는지에 대한 추정치를 숨겨진 변수로 설정하여 마르코프 랜덤 필드를 구축하는 단계;를 포함하는 것을 특징으로 하는 멀티미디어 인식 방법.
The method of claim 13,
The step (b)
Setting each segment defined as a node and connecting each node with a surrounding node with a line segment;
The Markov random field is set by setting a sequence of fingerprint vectors extracted from a frame existing in each node as an observation variable, and an estimate of the number of fingerprint vectors present in the fingerprint database as a hidden variable. And constructing; multimedia recognition method comprising a.
제13항에 있어서,
상기 (c)단계는,
각 노드의 숨겨진 변수와 이웃 노드의 숨겨진 변수 사이의 친화성 및 각 노드의 숨겨진 변수와 관측변수 사이의 친화성을 계산하는 단계;
신뢰 전파(belief propagation) 알고리즘을 이용하여, 숨겨진 변수들의 주변 확률을 최대화시키는 숨겨진 변수값을 추정하는 단계;를 포함하는 것을 특징으로 하는 멀티미디어 인식 방법.
The method of claim 13,
The step (c)
Calculating the affinity between the hidden variable of each node and the hidden variable of the neighboring node and the affinity between the hidden variable of each node and the observed variable;
Estimating a hidden variable value that maximizes a peripheral probability of the hidden variables using a trust propagation algorithm.
KR1020100013886A 2010-02-16 2010-02-16 Apparatus and Method for realizing multimedia KR101094896B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100013886A KR101094896B1 (en) 2010-02-16 2010-02-16 Apparatus and Method for realizing multimedia

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100013886A KR101094896B1 (en) 2010-02-16 2010-02-16 Apparatus and Method for realizing multimedia

Publications (2)

Publication Number Publication Date
KR20110094487A KR20110094487A (en) 2011-08-24
KR101094896B1 true KR101094896B1 (en) 2011-12-15

Family

ID=44930475

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100013886A KR101094896B1 (en) 2010-02-16 2010-02-16 Apparatus and Method for realizing multimedia

Country Status (1)

Country Link
KR (1) KR101094896B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570880B (en) * 2016-10-28 2019-10-11 中国人民解放军第三军医大学 In conjunction with the brain tissue MRI image dividing method of fuzzy clustering and markov random file

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090060340A1 (en) 2007-08-29 2009-03-05 Hui Zhou Method And Apparatus For Automatic Image Categorization Using Image Texture
KR100888804B1 (en) 2007-06-04 2009-03-13 (주)엔써즈 Method and apparatus for determining sameness and detecting common frame of moving picture data
KR100896336B1 (en) 2007-08-22 2009-05-07 주식회사 코난테크놀로지 System and Method for related search of moving video based on visual content
KR100920227B1 (en) 2007-06-29 2009-10-05 포항공과대학교 산학협력단 Belief propagation based fast systolic array apparatus and its method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100888804B1 (en) 2007-06-04 2009-03-13 (주)엔써즈 Method and apparatus for determining sameness and detecting common frame of moving picture data
KR100920227B1 (en) 2007-06-29 2009-10-05 포항공과대학교 산학협력단 Belief propagation based fast systolic array apparatus and its method
KR100896336B1 (en) 2007-08-22 2009-05-07 주식회사 코난테크놀로지 System and Method for related search of moving video based on visual content
US20090060340A1 (en) 2007-08-29 2009-03-05 Hui Zhou Method And Apparatus For Automatic Image Categorization Using Image Texture

Also Published As

Publication number Publication date
KR20110094487A (en) 2011-08-24

Similar Documents

Publication Publication Date Title
US8270806B2 (en) Information processing apparatus and method of controlling same
KR100996066B1 (en) Face-image registration device, face-image registration method, face-image registration program, and recording medium
CN109635686B (en) Two-stage pedestrian searching method combining human face and appearance
CN106937114B (en) Method and device for detecting video scene switching
CN106991370B (en) Pedestrian retrieval method based on color and depth
JP5685324B2 (en) Method and apparatus for comparing pictures
CN110795595A (en) Video structured storage method, device, equipment and medium based on edge calculation
CN110334622B (en) Pedestrian retrieval method based on adaptive feature pyramid
JP4496992B2 (en) Animal up-frame detection method, program, and storage medium storing program, and animal up-shot detection method, animal up-frame or shot detection method, program, and storage medium
KR101634395B1 (en) Video identification
JP2014102810A (en) Subject recognition device, subject recognition method, and subject recognition program
CN112926557B (en) Method for training multi-mode face recognition model and multi-mode face recognition method
JP5192437B2 (en) Object region detection apparatus, object region detection method, and object region detection program
KR101717441B1 (en) Apparatus and method for protecting privacy in character image
JP5538781B2 (en) Image search apparatus and image search method
KR101094896B1 (en) Apparatus and Method for realizing multimedia
KR101111046B1 (en) A Similar Video Search System through Object Detection Information and A Method thereof
CN105590086A (en) Article antitheft detection method based on visual tag identification
KR102004929B1 (en) System and method for searching similarity of multimedia files
KR101367821B1 (en) video identification method and apparatus using symmetric information of hierachical image blocks
WO2013154062A1 (en) Image recognition system, image recognition method, and program
CN111275045A (en) Method and device for identifying image subject, electronic equipment and medium
KR102297103B1 (en) Method and apparatus for generating 3d scene graph
KR102542363B1 (en) Method for recognizing object in 3 dimentional space
JP7207479B2 (en) Building gauge determination method

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20141127

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee