KR20230115085A - Video coding method and apparatus for machine - Google Patents

Video coding method and apparatus for machine Download PDF

Info

Publication number
KR20230115085A
KR20230115085A KR1020220011629A KR20220011629A KR20230115085A KR 20230115085 A KR20230115085 A KR 20230115085A KR 1020220011629 A KR1020220011629 A KR 1020220011629A KR 20220011629 A KR20220011629 A KR 20220011629A KR 20230115085 A KR20230115085 A KR 20230115085A
Authority
KR
South Korea
Prior art keywords
video
feature
vcm
machine
encoding
Prior art date
Application number
KR1020220011629A
Other languages
Korean (ko)
Inventor
정순흥
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020220011629A priority Critical patent/KR20230115085A/en
Publication of KR20230115085A publication Critical patent/KR20230115085A/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

기계를 위한 영상 처리 방법 및 장치가 개시된다. 상기 기계를 위한 영상 처리 방법은, 비디오로부터 특징(feature)을 추출하여 상기 특징을 부호화하는 단계; 상기 비디오의 영상을 부호화하는 단계; 및 상기 부호화된 특징과 상기 부호화된 영상을 포함하는 부호화 데이터를 비트스트림(bitstream)하는 단계를 포함한다.An image processing method and apparatus for a machine are disclosed. The image processing method for the machine includes the steps of extracting a feature from a video and encoding the feature; encoding an image of the video; and bitstreaming encoded data including the encoded feature and the encoded image.

Figure P1020220011629
Figure P1020220011629

Description

기계를 위한 영상 처리 방법 및 장치 {VIDEO CODING METHOD AND APPARATUS FOR MACHINE}Image processing method and apparatus for machine {VIDEO CODING METHOD AND APPARATUS FOR MACHINE}

본 개시는 영상 처리 방법 및 장치에 관한 것이며, 보다 구체적으로 기계를 위한 영상 처리 방법 및 장치에 대한 것이다.The present disclosure relates to an image processing method and apparatus, and more particularly to an image processing method and apparatus for a machine.

사물인터넷, 스마트 시티, 자율 주행 차 등 다양한 응용 환경에서 수집되는 비디오 데이터의 양은 기하급수적으로 증가하고 있으며, 이를 기반으로 비디오의 객체나 이벤트를 인식하고 이를 분석하여 활용하는 서비스 요구 역시 지속적으로 증대되고 있다. 이에 덧붙여 방대한 비디오 데이터를 사람이 직접 감시 및 분석하는 것이 한계에 달함에 따라 사람 대신 기계가 비디오 내의 영상 정보를 분석하여 다음에 발생할 상황을 예측하여 사람에게 알려주거나 직접 능동적으로 대처하는 지능화, 자동화 요구사항이 점진적으로 증대되고 있다.The amount of video data collected in various application environments such as the Internet of Things, smart cities, and self-driving cars is increasing exponentially. there is. In addition, as the direct monitoring and analysis of vast video data by humans has reached its limit, a machine instead of a human analyzes the video information in the video to predict what will happen next and informs the person or directly and actively responds to it. matters are gradually increasing.

한편, 비디오를 수집하는 영상 획득 장치와 이를 분석, 활용하는 임무 수행하는 장치가 분리된 경우, 통상적으로 비디오 코덱을 사용하여 부호화하여 전송하고 이를 수신한 장치는 복호화한 비디오를 다양한 임무에 활용하는 방법을 취한다. 하지만, 비디오 데이터의 압축률을 높이면 영상 정보의 손실이 늘어나 임무 수행 성능이 떨어지게 된다. 특히 기존 비디오 코덱의 경우 HVS(Human Visual System) 특성을 고려하여 설계되었기 때문에 기계의 임무 수행에 필요한 영상 정보가 아님에도 인간 시각 인지에 중요한 특성 정보는 유지하는 비효율성이 존재한다. 따라서 기계에 임무 수행 성능을 유지하면서 비디오 데이터를 효율적으로 압축하기 위해서는 기계의 임무 수행에 초점을 맞춘 비디오 부호화 기술이 필요하다.On the other hand, when the image acquisition device that collects video and the device that performs the task of analyzing and utilizing it are separated, a method of encoding and transmitting using a video codec and using the decoded video for various tasks by the device receiving it take However, if the compression rate of video data is increased, the loss of video information increases, resulting in deterioration in mission performance. In particular, in the case of existing video codecs, since they are designed in consideration of the characteristics of the HVS (Human Visual System), there is inefficiency in maintaining characteristic information important for human visual perception even though it is not image information necessary for the machine to perform its mission. Therefore, in order to efficiently compress video data while maintaining the machine's mission performance, a video encoding technology focused on the machine's mission is required.

본 개시의 기술적 과제는, 기계를 위한 영상 처리 방법 및 장치를 제공하는데 그 목적이 있다.An object of the present disclosure is to provide an image processing method and apparatus for a machine.

본 개시에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.The technical problems to be achieved in the present disclosure are not limited to the technical problems mentioned above, and other technical problems not mentioned will be clearly understood by those skilled in the art from the description below. You will be able to.

본 개시의 실시예에 따르면, 기계를 위한 영상 처리 방법 및 장치가 개시된다. 상기 기계를 위한 영상 처리 방법은, 비디오로부터 특징(feature)을 추출하여 상기 특징을 부호화하는 단계; 상기 비디오의 영상을 부호화하는 단계; 및 상기 부호화된 특징과 상기 부호화된 영상을 포함하는 부호화 데이터를 비트스트림(bitstream)하는 단계를 포함한다.According to an embodiment of the present disclosure, an image processing method and apparatus for a machine are disclosed. The image processing method for the machine includes the steps of extracting a feature from a video and encoding the feature; encoding an image of the video; and bitstreaming encoded data including the encoded feature and the encoded image.

본 개시의 다른 실시예에 따르면, 상기 특징을 부호화하는 단계는 기계 분석에서 수행하고자 하는 작업(task) 정보를 수신하고, 상기 수신된 작업 정보에 대한 특징을 상기 비디오로부터 추출하여 상기 추출된 특징을 부호화할 수 있다.According to another embodiment of the present disclosure, the encoding of the feature may include receiving task information to be performed in machine analysis, extracting a feature of the received task information from the video, and converting the extracted feature to can be coded.

본 개시의 또 다른 실시예에 따르면, 상기 영상을 부호화하는 단계는 재구성하고자 하는 프레임 정보가 수신되면 상기 프레임 정보에 해당하는 상기 비디오의 프레임을 부호화할 수 있다.According to another embodiment of the present disclosure, in the encoding of the video, when frame information to be reconstructed is received, a frame of the video corresponding to the frame information may be encoded.

본 개시의 또 다른 실시예에 따르면, 상기 영상을 부호화하는 단계는 상기 비디오의 부호화에 대한 요청이 수신되는 경우에만 상기 비디오를 부호화할 수 있다.According to another embodiment of the present disclosure, the encoding of the video may encode the video only when a request for encoding of the video is received.

본 개시의 또 다른 실시예에 따르면, 상기 비트스트림하는 단계는 상기 비디오의 부호화와 상기 특징의 부호화에 관련된 정보 각각을 포함시켜 상기 부호화 데이터를 비트스트림할 수 있다.According to another embodiment of the present disclosure, in the bitstreaming, the encoded data may be bitstreamed by including information related to encoding of the video and encoding of the feature, respectively.

본 개시의 또 다른 실시예에 따르면, 상기 비트스트림하는 단계는 상기 부호화 데이터를 NAL 유닛(unit)으로 생성하여 비트스트림할 수 있다.According to another embodiment of the present disclosure, in the step of bitstreaming, the encoded data may be generated as a NAL unit and bitstreamed.

본 개시에 대하여 위에서 간략하게 요약된 특징들은 후술하는 본 개시의 상세한 설명의 예시적인 양상일 뿐이며, 본 개시의 범위를 제한하는 것은 아니다.The features briefly summarized above with respect to the disclosure are merely exemplary aspects of the detailed description of the disclosure that follows, and do not limit the scope of the disclosure.

본 개시에 따르면, 기계를 위한 영상 처리 방법 및 장치를 제공할 수 있다.According to the present disclosure, an image processing method and apparatus for a machine may be provided.

본 개시에 따르면, 필요로 하는 경우에만 부호화기에서 비디오 영상을 부호화하여 전송함으로써, 부호화 효율 및 프라이버시 측면에서 장점을 가질 수 있다.According to the present disclosure, since a video image is encoded and transmitted by an encoder only when necessary, it is possible to have advantages in terms of encoding efficiency and privacy.

본 개시에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.Effects obtainable in the present disclosure are not limited to the effects mentioned above, and other effects not mentioned may be clearly understood by those skilled in the art from the description below. will be.

도 1은 비디오 코덱을 사용한 VCM 구조의 실시예를 도시한 도면이다.
도 2는 비디오 코덱을 사용한 VCM 구조의 다른 실시예를 도시한 도면이다.
도 3은 특징 코덱을 사용한 VCM 구조의 실시예를 도시한 도면이다.
도 4는 특징 코덱을 사용한 VCM 구조의 다른 실시예를 도시한 도면이다.
도 5는 본 개시의 실시예에 따른 기계를 위한 영상 처리 장치의 구성도를 도시한 도면이다.
도 6은 본 개시의 실시예에 따른 기계를 위한 영상 처리 방법의 순서도를 도시한 도면이다.
도 7은 본 개시의 실시예에 따른 기계를 위한 영상 처리 장치가 적용되는 디바이스의 구성도를 도시한 도면이다.
1 is a diagram illustrating an embodiment of a VCM structure using a video codec.
2 is a diagram illustrating another embodiment of a VCM structure using a video codec.
3 is a diagram illustrating an embodiment of a VCM structure using a feature codec.
4 is a diagram showing another embodiment of a VCM structure using a feature codec.
5 is a diagram illustrating a configuration of an image processing apparatus for a machine according to an embodiment of the present disclosure.
6 is a flowchart illustrating an image processing method for a machine according to an embodiment of the present disclosure.
7 is a diagram illustrating a configuration of a device to which an image processing apparatus for a machine according to an embodiment of the present disclosure is applied.

이하에서는 첨부한 도면을 참고로 하여 본 개시의 실시 예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나, 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. Hereinafter, with reference to the accompanying drawings, embodiments of the present disclosure will be described in detail so that those skilled in the art can easily carry out the present disclosure. However, the present disclosure may be implemented in many different forms and is not limited to the embodiments described herein.

본 개시의 실시 예를 설명함에 있어서 공지 구성 또는 기능에 대한 구체적인 설명이 본 개시의 요지를 흐릴 수 있다고 판단되는 경우에는 그에 대한 상세한 설명은 생략한다. 그리고, 도면에서 본 개시에 대한 설명과 관계없는 부분은 생략하였으며, 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.In describing the embodiments of the present disclosure, if it is determined that a detailed description of a known configuration or function may obscure the gist of the present disclosure, a detailed description thereof will be omitted. And, in the drawings, parts irrelevant to the description of the present disclosure are omitted, and similar reference numerals are attached to similar parts.

본 개시에 있어서, 어떤 구성요소가 다른 구성요소와 "연결", "결합" 또는 "접속"되어 있다고 할 때, 이는 직접적인 연결 관계 뿐만 아니라, 그 중간에 또 다른 구성요소가 존재하는 간접적인 연결관계도 포함할 수 있다. 또한 어떤 구성요소가 다른 구성요소를 "포함한다" 또는 "가진다"고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 배제하는 것이 아니라 또 다른 구성요소를 더 포함할 수 있는 것을 의미한다.In the present disclosure, when a component is said to be "connected", "coupled" or "connected" to another component, this is not only a direct connection relationship, but also an indirect connection relationship where another component exists in the middle. may also be included. In addition, when a component "includes" or "has" another component, this means that it may further include another component without excluding other components unless otherwise stated. .

본 개시에 있어서, 제1, 제2 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용되며, 특별히 언급되지 않는 한 구성요소들 간의 순서 또는 중요도 등을 한정하지 않는다. 따라서, 본 개시의 범위 내에서 일 실시 예에서의 제1 구성요소는 다른 실시 예에서 제2 구성요소라고 칭할 수도 있고, 마찬가지로 일 실시 예에서의 제2 구성요소를 다른 실시 예에서 제1 구성요소라고 칭할 수도 있다. In the present disclosure, terms such as first and second are used only for the purpose of distinguishing one element from another, and do not limit the order or importance of elements unless otherwise specified. Accordingly, within the scope of the present disclosure, a first component in one embodiment may be referred to as a second component in another embodiment, and similarly, a second component in one embodiment may be referred to as a first component in another embodiment. can also be called

본 개시에 있어서, 서로 구별되는 구성요소들은 각각의 특징을 명확하게 설명하기 위한 것일 뿐, 구성요소들이 반드시 분리되는 것을 의미하지는 않는다. 즉, 복수의 구성요소가 통합되어 하나의 하드웨어 또는 소프트웨어 단위로 이루어질 수도 있고, 하나의 구성요소가 분산되어 복수의 하드웨어 또는 소프트웨어 단위로 이루어질 수도 있다. 따라서, 별도로 언급하지 않더라도 이와 같이 통합된 또는 분산된 실시 예도 본 개시의 범위에 포함된다. In the present disclosure, elements that are distinguished from each other are only for clearly describing each characteristic, and do not necessarily mean that the elements are separated. That is, a plurality of components may be integrated to form a single hardware or software unit, or a single component may be distributed to form a plurality of hardware or software units. Accordingly, even such integrated or distributed embodiments are included in the scope of the present disclosure, even if not mentioned separately.

본 개시에 있어서, 다양한 실시 예에서 설명하는 구성요소들이 반드시 필수적인 구성요소들은 의미하는 것은 아니며, 일부는 선택적인 구성요소일 수 있다. 따라서, 일 실시 예에서 설명하는 구성요소들의 부분집합으로 구성되는 실시 예도 본 개시의 범위에 포함된다. 또한, 다양한 실시예에서 설명하는 구성요소들에 추가적으로 다른 구성요소를 포함하는 실시 예도 본 개시의 범위에 포함된다. In the present disclosure, components described in various embodiments do not necessarily mean essential components, and some may be optional components. Therefore, an embodiment composed of a subset of components described in one embodiment is also included in the scope of the present disclosure. In addition, embodiments including other components in addition to the components described in various embodiments are also included in the scope of the present disclosure.

본 개시에 있어서, 본 명세서에 사용되는 위치 관계의 표현, 예컨대 상부, 하부, 좌측, 우측 등은 설명의 편의를 위해 기재된 것이고, 본 명세서에 도시된 도면을 역으로 보는 경우에는, 명세서에 기재된 위치 관계는 반대로 해석될 수도 있다.In the present disclosure, expressions of positional relationships used in this specification, such as upper, lower, left, right, etc., are described for convenience of description, and when viewing the drawings shown in this specification in reverse, the positions described in the specification Relationships can also be interpreted in reverse.

본 개시의 기계를 위한 영상 처리 방법과 장치를 설명하기에 앞서, 기계를 위한 영상 처리 과정에 대해 설명하면 다음과 같다.Prior to describing the image processing method and apparatus for a machine of the present disclosure, an image processing process for a machine will be described as follows.

영상의 소비 주체에 기계(machine)를 포함한 연구가 진행중이며, 이를 위한 새로운 영상 처리 방법이 필요하다. 이 기술을 MPEG에서는 Video Coding for Machine(VCM)이라 명명한다. VCM은 기계가 임무를 수행하는 데 필요한 영상(또는 비디오) 특징만 효율적으로 압축 및 전송하는 것으로, 인간이 아닌 기계를 위한 영상 처리 및 부호화 기술이다. VCM은 현재까지 도 1 내지 도 4와 같은 4가지의 구조에 대한 연구를 진행중이다. A study involving a machine as a subject of image consumption is in progress, and a new image processing method is needed for this purpose. This technology is called Video Coding for Machine (VCM) in MPEG. VCM is an image processing and encoding technology for non-human machines that efficiently compresses and transmits only the image (or video) features necessary for a machine to perform its mission. VCM is currently conducting research on four structures as shown in FIGS. 1 to 4 .

도 1은 비디오 코덱을 사용한 VCM 구조의 실시예를 도시한 도면이다. 1 is a diagram illustrating an embodiment of a VCM structure using a video codec.

도 1을 참조하면, VCM 장치는 비디오 부호화부를 포함하는 VCM 부호화기(VCM Encoder)와 비디오 복호화부를 포함하는 VCM 복호화기(VCM Decoder)를 포함한다. VCM 부호화기는 비디오가 입력되면 비디오를 부호화하여 비트스트림함으로써, VCM 복호화기에서 비트스트림을 복호화하여 재구성된 비디오(Reconstructed Video)를 기계와 인간에게 동시에 제공한다. 이때, 기계는 재구성된 비디오의 기계 분석(machine analysis)을 통해 작업(task)를 수행함으로써, 결과를 획득할 수 있다.Referring to FIG. 1, the VCM device includes a VCM encoder including a video encoder and a VCM decoder including a video decoder. When video is input, the VCM encoder encodes the video into a bitstream, and the VCM decoder decodes the bitstream to provide reconstructed video to both machines and humans at the same time. At this time, the machine may obtain a result by performing a task through machine analysis of the reconstructed video.

본 개시의 상세한 설명에서의, 기계 분석은 기계에서 영상을 소비하는 형태로, 입력된 데이터(예를 들어, Reconstructed Video 또는 Reconstructed Feature)를 사용한 객체 검출(Object Detection), 객체 세그멘테이션(Object Segmentation), 객체 트래킹(Object Tracking), 이벤트 인식(Event Recognition), 이벤트 예측(Event Prediction), 포즈 추정(Pose estimation) 등의 작업을 수행하여 결과를 얻어내는 과정을 포함할 수 있다.In the detailed description of the present disclosure, machine analysis is a form of consuming images in a machine, object detection using input data (eg, Reconstructed Video or Reconstructed Feature), object segmentation, It may include a process of obtaining a result by performing tasks such as object tracking, event recognition, event prediction, and pose estimation.

도 2는 비디오 코덱을 사용한 VCM 구조의 다른 실시예를 도시한 도면이다. 2 is a diagram illustrating another embodiment of a VCM structure using a video codec.

도 2를 참조하면, VCM 장치는 비디오의 특징을 추출하는 특징 추출부, 특징 부호화부를 포함하는 VCM 부호화기(VCM Encoder) 및 특징 복호화부와 비디오 재구성부를 포함하는 VCM 복호화기(VCM Decoder)를 포함한다. VCM 부호화기는 특징 추출부에 의해 추출된 비디오의 특징이 입력되면 특징을 부호화하여 비트스트림함으로써, VCM 복호화기에서 특징을 복호화한 후 비디오 재구성부에서 복호화된 특징을 이용하여 재구성된 비디오(Reconstructed Video)를 기계와 인간에게 동시에 제공한다. 이때, 기계는 재구성된 비디오의 기계 분석(machine analysis)을 통해 작업(task)를 수행함으로써, 결과를 획득할 수 있다. 도 2에서의 특징 추출은 비디오에서 얻을 수 있는 특징을 말한다. 예로서, 특징은 비디오를 딥 러닝 네트워크에 입력시키고, 특정한 단수/복수 레이어에서 출력되는 특징 벡터(feature vector)일 수 있다. Referring to FIG. 2, the VCM device includes a feature extraction unit for extracting video features, a VCM encoder including a feature encoding unit, and a VCM decoder including a feature decoding unit and a video reconstruction unit. . When the features of the video extracted by the feature extraction unit are input, the VCM encoder encodes the features and converts them into a bitstream, and then decodes the features in the VCM decoder and then uses the decoded features in the video reconstruction unit to generate a reconstructed video. to both machines and humans at the same time. At this time, the machine may obtain a result by performing a task through machine analysis of the reconstructed video. Feature extraction in FIG. 2 refers to features that can be obtained from a video. For example, the feature may be a feature vector output from a specific singular/plural layer in which video is input to a deep learning network.

상기 도 1과 도 2의 VCM 복호화기 출력은 재구성된 비디오(reconstructed video)로 기계와 인간이 동시에 소비가 가능한 형태이다. 인간 소비(Human Consumption)를 목적으로 했던 비디오 코덱(video codec)에서는 부호화 효율 대비 주관적 화질을 성능 지표로 사용한다. 하지만, 기계 분석(Machine Analysis)을 위해서는 부호화 효율 대비 작업 예를 들어, 객체 검출, 객체 세그멘테이션 등의 성능이 주요 성능 지표로 사용된다. 따라서, 두가지 성능 지표를 고려한 방향으로 연구가 진행되고 있다. 상기 도 1과 도 2의 VCM 부호화기(VCM Encoder)에서 출력되는 비트스트림(Bitstream)에는 영상의 정보가 포함되어 있으므로, 프라이버시(privacy) 문제가 발생할 수 있다.The output of the VCM decoder of FIGS. 1 and 2 is a reconstructed video that can be consumed by both machines and humans at the same time. In a video codec aimed at human consumption, subjective picture quality versus coding efficiency is used as a performance index. However, for machine analysis, encoding efficiency versus task performance, for example, object detection and object segmentation, is used as a major performance indicator. Therefore, research is being conducted in the direction of considering the two performance indicators. Since the bitstream output from the VCM encoder of FIGS. 1 and 2 includes image information, a privacy problem may occur.

도 3은 특징 코덱을 사용한 VCM 구조의 실시예를 도시한 도면이다.3 is a diagram illustrating an embodiment of a VCM structure using a feature codec.

도 3을 참조하면, VCM 장치는 비디오의 특징을 추출하는 특징 추출부, 특징 부호화부를 포함하는 VCM 부호화기와 특징 복호화부를 포함하는 VCM 복호화기를 포함한다. VCM 부호화기는 특징 추출부에 의해 추출된 비디오의 특징이 입력되면 특징을 부호화하여 비트스트림함으로써, VCM 복호화기에서 특징을 복호화하여 재구성된 특징(Reconstructed Feature)를 기계에 제공한다. 이때, 기계는 재구성된 특징의 기계 분석(machine analysis)을 통해 작업(task)를 수행함으로써, 결과를 획득할 수 있다.Referring to FIG. 3 , the VCM device includes a feature extractor for extracting video features, a VCM encoder including a feature coder, and a VCM decoder including a feature decoder. When the feature of the video extracted by the feature extractor is input, the VCM encoder encodes the feature to form a bitstream, and then decodes the feature in the VCM decoder to provide a reconstructed feature to the machine. At this time, the machine may obtain a result by performing a task through machine analysis of the reconstructed feature.

도 4는 특징 코덱을 사용한 VCM 구조의 다른 실시예를 도시한 도면이다.4 is a diagram showing another embodiment of a VCM structure using a feature codec.

도 4를 참조하면, VCM 부호화기는 특징 추출부에 의해 추출된 비디오의 특징이 입력되면 특징을 비디오로 변환한 후 비디오 부호화부를 통해 비디오를 부호화하여 비트스트림함으로써, VCM 복호화기에서 비디오를 복호화하고 역 변환부를 통해 역 변환하여 재구성된 특징을 기계에 제공한다. 이때, 기계는 재구성된 특징의 기계 분석(machine analysis)을 통해 작업(task)를 수행함으로써, 결과를 획득할 수 있다.Referring to FIG. 4, the VCM encoder converts the features of a video extracted by the feature extractor into a video, and then encodes the video through the video encoder to form a bitstream, so that the VCM decoder decodes the video and inversely The inverse transform is performed through the transform unit, and the reconstructed features are provided to the machine. At this time, the machine may obtain a result by performing a task through machine analysis of the reconstructed feature.

상기 도 3과 도 4의 VCM 복호화기(VCM Decoder) 출력은 재구성된 특징(reconstructed feature)으로 기계 분석(Machine Analysis)에만 적합한 형태이다. 인간 소비를 고려할 필요가 없으므로 기계 분석에 필요한 최소량의 특징(feature)을 추출하여 압축해서 전송하면 되는 형태를 가진다. 이는 프라이버시 측면에서 강점을 가지지만, 복호화기(Decoder) 측에서 해당 영상을 재구성하기 어렵거나, 불가능하게 되는 문제가 발생할 수 있다.The output of the VCM decoder of FIGS. 3 and 4 is a reconstructed feature and is suitable only for machine analysis. Since there is no need to consider human consumption, it has a form in which the minimum amount of features required for machine analysis is extracted, compressed, and transmitted. Although this has a strength in terms of privacy, a problem that it is difficult or impossible to reconstruct the corresponding image at the decoder side may occur.

본 개시는, 상술한 기존 VCM 구조의 문제점을 해결하기 위한 것으로, 특징 부호화부와 비디오 부호화부를 VCM 부호화기에 모두 구비하고, 특징 복호화부와 비디오 복호화부를 VCM 복호화부에 모두 구비하여 부호화되는 비디오(또는 영상)의 정보를 공유함으로써, 특징을 이용한 기계 분석 뿐만 아니라 VCM 복호화기에서 해당 비디오 영상이 필요한 경우, 요청을 통해 해당 비디오 영상을 재구성하는 것을 그 요지로 한다.The present disclosure is intended to solve the above-mentioned problems of the existing VCM structure, and video (or By sharing information of video), the gist of this is not only machine analysis using features, but also reconstructing the corresponding video image through a request when the corresponding video image is needed in the VCM decoder.

도 5는 본 개시의 실시예에 따른 기계를 위한 영상 처리 장치의 구성도를 도시한 도면이다.5 is a diagram illustrating a configuration of an image processing apparatus for a machine according to an embodiment of the present disclosure.

도 5를 참조하면, 기계를 위한 영상 처리 장치(500)는 비디오의 특징과 비디오를 부호화하여 부호화된 비디오와 특징을 포함하는 부호화 데이터를 VCM 복호화기로 비트스트림하는 VCM 부호화기(또는 VCM 부호화 장치)(100)와 VCM 부호화기(100)로부터 비트스트림된 부호화 데이터에서 부호화된 특징과 부호화된 비디오 각각을 파싱하여 부호화된 특징과 부호화된 비디오를 복호화하는 VCM 복호화기(또는 VCM 복호화 장치)(200)를 포함한다. 이때, VCM 부호화기(100)는 재구성하고자 하는 프레임 정보 예를 들어, 프레임 번호에 대한 정보가 수신되면 프레임 정보에 해당하는 비디오 영상(또는 프레임)만을 부호화하여 부호화 데이터에 포함시켜 VCM 복호화기(200)로 비트스트림할 수 있다. 예를 들어, VCM 부호화기(100)는 본 개시의 장치가 탑재된 상위 레벨의 장치 예를 들어, 단말 장치 등으로부터 재구성하고자 하는 프레임 정보가 수신되면 프레임 정보에 해당하는 비디오 영상(또는 프레임)만을 부호화하여 부호화 데이터에 포함시켜 VCM 복호화기(200)로 비트스트림할 수 있다. 여기서, 프레임 번호에 대한 정보는 POC(picture order count)를 포함할 수 있으며, POC 뿐만 아니라 프레임 번호에 해당하는 모든 정보를 포함할 수 있다. Referring to FIG. 5, an image processing device 500 for a machine includes a VCM encoder (or VCM encoding device) (or a VCM encoding device) that encodes video features and video and streams coded data including the encoded video and features into a bitstream to a VCM decoder. 100) and a VCM decoder (or VCM decoding apparatus) 200 that parses each of the coded features and the coded video in the coded data bitstreamed from the VCM encoder 100 and decodes the coded features and the coded video. do. At this time, when receiving frame information to be reconstructed, for example, information on a frame number, the VCM encoder 100 encodes only the video image (or frame) corresponding to the frame information and includes it in the encoded data so that the VCM decoder 200 can be bitstreamed with For example, the VCM encoder 100 encodes only a video image (or frame) corresponding to the frame information when frame information to be reconstructed is received from a higher-level device equipped with the device of the present disclosure, for example, a terminal device. Then, it can be included in encoded data and bit streamed to the VCM decoder 200. Here, the information on the frame number may include a picture order count (POC), and may include all information corresponding to the frame number as well as the POC.

구체적으로, VCM 부호화기(100)는 특징 추출부(110), 특징 부호화부(120), 제어부(130), 비디오 부호화부(140)와 데이터 송신부(150)를 포함한다.Specifically, the VCM encoder 100 includes a feature extraction unit 110, a feature encoding unit 120, a control unit 130, a video encoding unit 140, and a data transmission unit 150.

특징 추출부(110)는 비디오가 입력되면 비디오에서 특징(feature)을 추출한다. 여기서, 특징은 비디오를 딥 러닝 네트워크에 입력시키고, 특정한 단수/복수 레이어에서 출력되는 특징 벡터(feature vector)일 수 있다.When a video is input, the feature extractor 110 extracts a feature from the video. Here, the feature may be a feature vector that inputs video to a deep learning network and is output from a specific single/plural layer.

실시예에 따라, 특징 추출부(110)는 기계 분석에서 수행하려고 하는 작업(task) 정보를 제어부(130)를 통해 수신하고, 수신된 작업 정보에 대한 특징을 비디오로부터 추출할 수 있다. 이때, 특징 추출부(110)는 SIFT(Scale Invariant Feature Transform) 특징 점(feature point), SIFT 디스크립터(descriptor) 또는 딥 러닝 네트워크의 레이어에서 출력된 특징 벡터로 구성될 수 있다. 여기서, 작업 정보는 미리 설정된 정보일 수도 있고, 본 개시의 장치가 탑재된 상위 레벨의 장치로부터 수신되는 정보일 수도 있다.Depending on the embodiment, the feature extractor 110 may receive task information to be performed in the machine analysis through the controller 130 and extract features of the received task information from the video. In this case, the feature extractor 110 may be composed of a Scale Invariant Feature Transform (SIFT) feature point, a SIFT descriptor, or a feature vector output from a layer of a deep learning network. Here, the job information may be preset information or information received from a higher-level device equipped with the device of the present disclosure.

특징 부호화부(120)는 특징 추출부(110)에 의해 추출되는 비디오의 특징을 입력 받아 비디오의 특징을 부호화한다. 이때, 특징 부호화부(120)는 비디오 부호화기 또는 딥 러닝 네트워크 등을 사용하여 비디오의 특징을 부호화할 수 있다.The feature encoder 120 receives the video feature extracted by the feature extractor 110 and encodes the video feature. In this case, the feature encoder 120 may encode features of the video using a video encoder or a deep learning network.

비디오 부호화부(140)는 비디오 영상을 부호화한다.The video encoder 140 encodes a video image.

이때, 비디오 부호화부(140)는 제어부(130)의 제어에 따라 필요로 하는 비디오 영상의 프레임만을 부호화할 수 있다. 일 예로, 비디오 부호화부(140)는 비디오 영상의 모든 프레임을 부호화할 수도 있고, 특정 프레임만을 부호화할 수도 있다.At this time, the video encoder 140 may encode only required frames of a video image under the control of the control unit 130 . For example, the video encoder 140 may encode all frames of a video image or only specific frames.

제어부(130)는 VCM 부호화기(100)를 제어하는 구성 수단으로, 특징 추출부(110)와 특징 부호화부(120)를 제어하여 기계 분석에서 수행하려고 하는 작업에 대한 비디오의 특징을 부호화하도록 제어하고, 비디오 부호화부(140)를 제어하여 VCM 복호화기(200)에서 필요로 하는 비디오 영상을 부호화하도록 제어한다. 즉, 제어부(130)는 영상(또는 비디오) 및 부호화 정보(비디오 부호화 정보와 특징 부호화 정보)를 입력 받아 특징 추출부(110), 특징 부호화부(120)와, 비디오 부호화부(140)에서 이를 처리하도록 제어한다. 일 예로, 제어부(130)는 상위 레벨의 장치를 통해 재구성하고자 하는 영상 또는 비디오의 프레임 정보 예를 들어, POC에 대한 정보가 수신되면 프레임 정보에 해당하는 비디오의 프레임을 부호화하도록 비디오 부호화부(140)를 제어할 수 있다.The control unit 130 is a component for controlling the VCM encoder 100, and controls the feature extraction unit 110 and the feature encoding unit 120 to encode video features for a task to be performed in machine analysis, , Controls the video encoder 140 to encode a video image required by the VCM decoder 200. That is, the control unit 130 receives an image (or video) and encoding information (video encoding information and feature encoding information) and converts them into the feature extraction unit 110, the feature encoding unit 120, and the video encoding unit 140. control to process. For example, the control unit 130 may encode a video frame corresponding to the frame information when frame information of an image or video to be reconstructed, for example, POC, is received through a higher-level device. ) can be controlled.

나아가, 제어부(130)는 비디오 부호화와 특징 부호화에 필요한 정보를 제어하며, 비디오 부호화와 특징 부호화에 필요한 정보를 기록하여 데이터 송신부(150)에서 VCM 복호화기(200)로 데이터를 송신할 때 관련 정보를 포함시켜 전송할 수 있도록 한다.Furthermore, the control unit 130 controls information necessary for video encoding and feature encoding, records information necessary for video encoding and feature encoding, and transmits data from the data transmission unit 150 to the VCM decoder 200. included so that it can be transmitted.

실시예에 따라, 제어부(130)는 H.264/AVC Video Encoder의 경우 영상 부호화(또는 비디오 부호화)에 필요한 정보, 예를 들어, 영상의 포맷, 비트 심도, 영상 순서 정보, 영상의 부호화 구조, 참조 픽쳐에 대한 정보 등을 제어하며, 관련 정보를 Sequence Parameter Set(SPS), Picture Parameter Set(PPS), Slice Header(SH)에 기록하여, VCM 복호화기(200)에서 이를 활용하여 부호화된 비트스트림을 복호화하도록 한다. 그리고, 제어부(130)는 영상 부호화에 필요한 정보 뿐만 아니라 특징 추출부(110)와 특징 부호화부(120)에서 필요한 정보도 같이 제어하고, 관련 정보를 영상 부호화 시 생성하는 파라미터(parameter)와 헤더(header)에 대응하여 Feature Sequence Parameter Set(FSPS), Feature Picture Parameter Set(FPPS), Feature Slice Header(FSH)를 생성하고 기록하여, VCM 복호화기(200)에서 이를 활용하여 부호화된 비트스트림을 복호화하도록 한다. Depending on the embodiment, the controller 130 may provide information necessary for video encoding (or video encoding) in the case of an H.264/AVC Video Encoder, for example, video format, bit depth, video order information, video encoding structure, Controls information on a reference picture, etc., records related information in Sequence Parameter Set (SPS), Picture Parameter Set (PPS), and Slice Header (SH), and utilizes it in the VCM decoder 200 to form an encoded bitstream to decrypt. In addition, the control unit 130 controls not only information necessary for video encoding, but also information required by the feature extraction unit 110 and the feature encoding unit 120, and the parameters and headers generated during video encoding of related information ( header) to generate and record Feature Sequence Parameter Set (FSPS), Feature Picture Parameter Set (FPPS), and Feature Slice Header (FSH), and use them in the VCM decoder 200 to decode the encoded bitstream do.

H.264/AVC를 사용할 경우, SPS, PPS, SH에는 기존 규격에 맞는 정보가 작성되고, 이에 대응하여, FSPS, FPPS, FSH에는 다음과 같은 정보를 포함할 수 있다. FSPS는 영상 시퀀스(sequence) 단위에서 사용할 특징 추출/부호화(feature extraction/encoding) 정보를 포함하며, SPS에서 사용하는 픽쳐 오더(picture order)와 관련된 정보를 포함할 수 있다. FPPS는 단일 영상 단위에서 사용할 특징 추출/부호화(feature extraction/encoding) 정보를 포함하며, PPS에 사용하는 픽쳐 오더(picture order)와 관련된 정보를 포함할 수 있다. FSH는 단일 영상에서 슬라이스(slice) 단위로 분할되어 부호화되는 경우, 슬라이스 단위에서 사용할 특징 추출/부호화(feature extraction/encoding) 정보를 포함하며, SH에 사용하는 픽쳐 오더(picture order)와 관련된 정보를 포함할 수 있다.When H.264/AVC is used, information that meets the existing standards is written in SPS, PPS, and SH, and correspondingly, the following information can be included in FSPS, FPPS, and FSH. The FSPS includes feature extraction/encoding information to be used in a video sequence unit, and may include information related to picture order used in the SPS. FPPS includes feature extraction/encoding information to be used in a single image unit, and may include information related to picture order used in PPS. When FSH is coded after being divided into slice units from a single image, it includes feature extraction/encoding information to be used in slice units, and information related to picture order used in SH. can include

데이터 송신부(150)는 제어부(130)로부터 입력된 정보 예를 들어, SPS, PPS, SH, FSPS, FPPS, FSH와 특징 부호화부(120)로부터 입력되는 부호화된 특징 비트스트림 및 비디오 부호화부(140)로부터 입력되는 부호화된 비디오 비트스트림을 포함하는 부호화 데이터를 VCM 복호화기(200)로 비트스트림한다. 이때, 데이터 송신부(150)는 SPS, PPS, SH, FSPS, FPPS, FSH 및 부호화된 비트스트림을 입력 받아 NAL 유닛(unit)을 생성하여 VCM 복호화기(200)로 비트스트림할 수 있다. 즉, 본 개시에서는, VCM 부호화기(100)에서 FSPS, FPPS, FSH 및 부호화된 특징을 위한 새로운 타입(type)을 정의하고, 영상 부호화와 특징 부호화에 관련된 정보를 NAL 유닛으로 생성하여 VCM 복호화기(200)로 비트스트림함으로써, VCM 복호화기(200)에서 영상 부호화 비트스트림인지 특징 부호화 비트스트림인지 구분하여 복호화를 수행할 수 있다. H.264/AVC 및 HEVC 규격에서는 NAL 유닛 타입에서 할당되지 않은 값들을 활용하여 새로운 타입을 정의할 수 있다.The data transmission unit 150 uses information input from the control unit 130, for example, SPS, PPS, SH, FSPS, FPPS, and FSH, and the encoded feature bitstream input from the feature encoding unit 120 and the video encoding unit 140 ), the coded data including the coded video bitstream input from the VCM decoder 200 is bitstreamed. At this time, the data transmission unit 150 may receive the SPS, PPS, SH, FSPS, FPPS, FSH, and the encoded bitstream, generate a NAL unit, and transmit the bitstream to the VCM decoder 200. That is, in the present disclosure, the VCM encoder 100 defines a new type for FSPS, FPPS, FSH, and encoded features, and generates information related to image encoding and feature encoding as a NAL unit to form a VCM decoder ( 200), the VCM decoder 200 can perform decoding by distinguishing whether it is an image encoding bitstream or a feature encoding bitstream. In the H.264/AVC and HEVC standards, a new type can be defined using values not allocated in the NAL unit type.

VCM 복호화기(200)는 파싱부(210), 특징 복호화부(220) 및 비디오 복호화부(230)를 포함한다.The VCM decoder 200 includes a parsing unit 210, a feature decoding unit 220 and a video decoding unit 230.

파싱부(210)는 VCM 부호화기(100)로부터 수신되는 비트스트림에서 NAL 유닛별로 파싱(parsing)하여 부호화된 특징을 특징 부호화부(220)로 전달하고, 부호화된 비디오를 비디오 복호화부(230)로 전달한다.The parsing unit 210 parses the bitstream received from the VCM encoder 100 for each NAL unit, transfers the encoded feature to the feature encoding unit 220, and transmits the encoded video to the video decoding unit 230. convey

이때, 파싱부(210)는 NAL 유닛의 SPS, PPS, SH, FSPS, FPPS, FSH를 이용하여 부호화된 특징과 부호화된 비디오를 파싱할 수 있다.At this time, the parsing unit 210 may parse the encoded feature and the encoded video using SPS, PPS, SH, FSPS, FPPS, and FSH of the NAL unit.

특징 복호화부(220)는 파싱부(210)로부터 전달받은 부호화된 특징을 복호화하여 재구성된 특징(reconstructed feature)을 기계에 제공함으로써, 기계는 재구성된 특징의 기계 분석(machine analysis)을 통해 작업(task)를 수행하여 결과를 획득할 수 있다.The feature decoding unit 220 decodes the encoded feature received from the parsing unit 210 and provides a reconstructed feature to a machine, so that the machine works through machine analysis of the reconstructed feature ( task) to obtain the result.

비디오 복호화부(230)는 파싱부(210)로부터 전달받은 부호화된 비디오를 복호화하여 재구성된 비디오(reconstructed video)를 인간에게 제공한다.The video decoder 230 decodes the encoded video received from the parser 210 and provides a reconstructed video to humans.

이와 같이, 본 개시의 장치는 VCM 부호화기에서 동일한 비디오 영상으로 부호화된 특징 출력과 부호화된 비디오를 동일한 픽쳐 오더로 재구성할 수 있으며, VCM 복호화기에서 필요 시 해당 영상을 재구성할 수 있다.In this way, the apparatus of the present disclosure can reconstruct feature outputs coded with the same video image in the VCM encoder and coded video in the same picture order, and the VCM decoder can reconstruct the corresponding image if necessary.

또한, 본 개시의 장치는 필요로 하는 경우에만 VCM 부호화기에서 비디오 영상을 부호화하여 전송함으로써, 부호화 효율 및 프라이버시 측면에서 장점을 가질 수 있다.In addition, the apparatus of the present disclosure can have advantages in terms of encoding efficiency and privacy by encoding and transmitting a video image in a VCM encoder only when necessary.

도 6은 본 개시의 실시예에 따른 기계를 위한 영상 처리 방법의 순서도를 도시한 도면이다. 도 5의 VCM 부호화기에서의 순서도를 도시한 도면이다.6 is a flowchart illustrating an image processing method for a machine according to an embodiment of the present disclosure. It is a diagram showing a flow chart in the VCM encoder of FIG. 5 .

도 6을 참조하면, 기계를 위한 영상 처리 방법은 비디오로부터 특징으로 추출하여 추출된 특징을 부호화하는 단계(S610), 비디오의 영상 예를 들어, 미리 설정된 프레임의 영상을 부호화하는 단계(S620)와 부호화된 특징, 부호화된 영상과 관련 정보를 NAL 유닛으로 비트스트림하는 단계(S630)를 포함한다.Referring to FIG. 6, the image processing method for a machine includes the steps of extracting a feature from a video and encoding the extracted feature (S610), encoding an image of a video, for example, an image of a preset frame (S620), and A step of bitstreaming the encoded feature, the encoded image, and related information into a NAL unit (S630) is included.

단계 S610은 기계 분석을 통해 수행하고자 하는 작업에 대한 정보를 이용하여 비디오로부터 특징을 추출할 수 있다. 즉, 단계 S610은 기계 분석을 통해 획득하고자 하는 작업에 맞는 비디오의 특징을 추출하여 부호화한다.In step S610, features may be extracted from the video using information on a task to be performed through machine analysis. That is, in step S610, video features suitable for a task to be acquired through machine analysis are extracted and encoded.

단계 S620은 인간이 인식하고자 하는 영상에 대한 정보 예를 들어, 프레임 정보를 수신하면, 프레임 정보에 대한 비디오 영상을 부호화하는 것으로, 전체 영상에 대한 정보가 수신되는 경우에는 비디오 전체를 부호화할 수도 있고, 복수의 프레임들에 대한 정보가 수신되는 경우에는 복수의 프레임들을 부호화할 수도 있다.Step S620 encodes a video image corresponding to the frame information when information about an image that a human wants to recognize, for example, frame information is received. If information about the entire image is received, the entire video may be encoded. , When information on a plurality of frames is received, a plurality of frames may be encoded.

단계 S630은 SPS, PPS, SH, FSPS, FPPS, FSH와 부호화된 특징 비트스트림 및 부호화된 비디오 비트스트림을 포함하는 부호화 데이터를 비트스트림할 수 있다.In step S630, encoded data including SPS, PPS, SH, FSPS, FPPS, FSH, encoded feature bitstream, and encoded video bitstream may be bitstreamed.

상술한 과정에 의해 부호화된 특징, 부호화된 비디오와 관련 정보의 NAL 유닛 비트스트림이 VCM 복호화기로 전달되면, VCM 복호화기에서는 NAL 유닛 비트스트림에서 부호화된 특징과 부호화된 비디오를 파싱하여 부호화된 특징을 복호화하고, 부호화된 비디오를 복호화함으로써, 재구성된 특징의 기계 분석을 통해 결과를 획득하고, 재구성된 영상을 인간(또는 사용자)에게 시각적으로 제공할 수 있다When the NAL unit bitstream of the encoded feature, encoded video, and related information encoded by the above process is delivered to the VCM decoder, the VCM decoder parses the encoded feature and the encoded video from the NAL unit bitstream to obtain the encoded feature. By decoding and decoding the encoded video, a result is obtained through machine analysis of the reconstructed feature, and the reconstructed image can be visually provided to a human (or user).

비록, 도 6에서 그 설명이 생략되었더라도, 도 6의 방법은 상술한 도 5의 동작과 기능을 모두 수행할 수 있다.Although the description is omitted in FIG. 6 , the method of FIG. 6 can perform all of the above-described operations and functions of FIG. 5 .

도 7은 본 개시의 실시예에 따른 기계를 위한 영상 처리 장치가 적용되는 디바이스의 구성도를 도시한 도면이다.7 is a diagram illustrating a configuration of a device to which an image processing apparatus for a machine according to an embodiment of the present disclosure is applied.

도 5의 본 개시의 실시예에 따른 기계를 위한 영상 처리 장치(500)는 도 7의 디바이스(1600)가 될 수 있다. 도 7을 참조하면, 디바이스(1600)는 메모리(1602), 프로세서(1603), 송수신부(1604) 및 주변 장치(1601)를 포함할 수 있다. 또한, 일 예로, 디바이스(1600)는 다른 구성을 더 포함할 수 있으며, 상술한 실시예로 한정되지 않는다. 이때, 상기 디바이스(1600)는 예를 들어 이동 가능한 사용자 단말기(예를 들어, 스마트 폰, 노트북, 웨어러블 기기 등) 이거나 고정된 관리 장치(예를 들어, 서버, PC 등) 일 수 있다.The image processing apparatus 500 for a machine according to the embodiment of the present disclosure of FIG. 5 may be the device 1600 of FIG. 7 . Referring to FIG. 7 , a device 1600 may include a memory 1602 , a processor 1603 , a transceiver 1604 and a peripheral device 1601 . Also, as an example, the device 1600 may further include other configurations, and is not limited to the above-described embodiment. In this case, the device 1600 may be, for example, a mobile user terminal (eg, a smart phone, a laptop computer, a wearable device, etc.) or a fixed management device (eg, a server, a PC, etc.).

보다 상세하게는, 도 7의 디바이스(1600)는 VCM 영상 처리 장치, 기계를 위한 객체 검출 장치, 기계를 위한 객체 세그멘테이션 장치, 기계를 위한 객체 트래킹 장치, 기계를 위한 이벤트 인식 장치, 기계를 위한 영상 부호화 장치, 기계를 위한 영상 복호화 장치 등과 같은 예시적인 하드웨어/소프트웨어 아키텍처일 수 있다. 이때, 일 예로, 메모리(1602)는 비이동식 메모리 또는 이동식 메모리일 수 있다. 또한, 일 예로, 주변 장치(1601)는 디스플레이, GPS 또는 다른 주변기기들을 포함할 수 있으며, 상술한 실시예로 한정되지 않는다. More specifically, the device 1600 of FIG. 7 includes a VCM image processing device, an object detection device for a machine, an object segmentation device for a machine, an object tracking device for a machine, an event recognition device for a machine, and an image for a machine. It may be an exemplary hardware/software architecture such as an encoding device, an image decoding device for a machine, and the like. At this time, for example, the memory 1602 may be a non-removable memory or a removable memory. Also, as an example, the peripheral device 1601 may include a display, GPS, or other peripheral devices, and is not limited to the above-described embodiment.

또한, 일 예로, 상술한 디바이스(1600)는 상기 송수신부(1604)와 같이 통신 회로를 포함할 수 있으며, 이에 기초하여 외부 디바이스와 통신을 수행할 수 있다.Also, as an example, the above-described device 1600 may include a communication circuit like the transceiver 1604, and based on this, communication with an external device may be performed.

또한, 일 예로, 프로세서(1603)는 범용 프로세서, DSP(digital signal processor), DSP 코어, 제어기, 마이크로제어기, ASIC들(Application Specific Integrated Circuits), FPGA(Field Programmable Gate Array) 회로들, 임의의 다른 유형의 IC(integrated circuit) 및 상태 머신과 관련되는 하나 이상의 마이크로프로세서 중 적어도 하나 이상일 수 있다. 즉, 상술한 디바이스(1600)를 제어하기 위한 제어 역할을 수행하는 하드웨어적/소프트웨어적 구성일 수 있다. 또한 상기 프로세서(1603)는 전술한 도 5의 특징 추출부(110), 특징 부호화부(120), 제어부(130) 및 비디오 부호화부(140)의 기능을 모듈화하여 수행할 수도 있고, 특징 복호화부(220), 파싱부(210) 및 비디오 복호화부(230)의 기능을 모듈화하여 수행할 수도 있다.Also, as an example, the processor 1603 may include a general purpose processor, a digital signal processor (DSP), a DSP core, a controller, a microcontroller, application specific integrated circuits (ASICs), field programmable gate array (FPGA) circuits, any other It may be at least one or more of a tangible integrated circuit (IC) and one or more microprocessors associated with a state machine. That is, it may be a hardware/software configuration that performs a control role for controlling the device 1600 described above. In addition, the processor 1603 may modularize and perform the functions of the feature extraction unit 110, the feature encoding unit 120, the control unit 130, and the video encoding unit 140 of FIG. 5, and the feature decoding unit 220, the parsing unit 210, and the video decoding unit 230 may be modularized and performed.

이때, 프로세서(1603)는 기계를 위한 영상 처리 장치의 다양한 필수 기능들을 수행하기 위해 메모리(1602)에 저장된 컴퓨터 실행가능한 명령어들을 실행할 수 있다. 일 예로, 프로세서(1603)는 신호 코딩, 데이터 처리, 전력 제어, 입출력 처리 및 통신 동작 중 적어도 어느 하나를 제어할 수 있다. 또한, 프로세서(1603)는 물리 계층, MAC 계층, 어플리케이션 계층들을 제어할 수 있다. 또한, 일 예로, 프로세서(1603)는 액세스 계층 및/또는 어플리케이션 계층 등에서 인증 및 보안 절차를 수행할 수 있으며, 상술한 실시예로 한정되지 않는다.At this time, the processor 1603 may execute computer executable instructions stored in the memory 1602 to perform various essential functions of the image processing device for the machine. For example, the processor 1603 may control at least one of signal coding, data processing, power control, input/output processing, and communication operations. Also, the processor 1603 may control a physical layer, a MAC layer, and an application layer. Also, as an example, the processor 1603 may perform authentication and security procedures in an access layer and/or an application layer, and is not limited to the above-described embodiment.

일 예로, 프로세서(1603)는 송수신부(1604)를 통해 다른 장치들과 통신을 수행할 수 있다. 일 예로, 프로세서(1603)는 컴퓨터 실행가능한 명령어들의 실행을 통해 기계를 위한 영상 처리 장치가 네트워크를 통해 다른 장치들과 통신을 수행하게 제어할 수 있다. 즉, 본 개시에서 수행되는 통신이 제어될 수 있다. 일 예로, 송수신부(1604)는 안테나를 통해 RF 신호를 전송할 수 있으며, 다양한 통신망에 기초하여 신호를 전송할 수 있다. For example, the processor 1603 may communicate with other devices through the transceiver 1604 . For example, the processor 1603 may control an image processing device for a machine to communicate with other devices through a network through execution of computer executable instructions. That is, the communication performed in the present disclosure can be controlled. For example, the transceiver 1604 may transmit an RF signal through an antenna and may transmit the signal based on various communication networks.

또한, 일 예로, 안테나 기술로서 MIMO 기술, 빔포밍 등이 적용될 수 있으며, 상술한 실시예로 한정되지 않는다. 또한, 송수신부(1604)를 통해 송수신한 신호는 변조 및 복조되어 프로세서(1603)에 의해 제어될 수 있으며, 상술한 실시 예로 한정되지 않는다.In addition, as an example, MIMO technology, beamforming, etc. may be applied as an antenna technology, and is not limited to the above-described embodiment. In addition, the signal transmitted and received through the transceiver 1604 may be modulated and demodulated and controlled by the processor 1603, and is not limited to the above-described embodiment.

본 개시의 예시적인 방법들은 설명의 명확성을 위해서 동작의 시리즈로 표현되어 있지만, 이는 단계가 수행되는 순서를 제한하기 위한 것은 아니며, 필요한 경우에는 각각의 단계가 동시에 또는 상이한 순서로 수행될 수도 있다. 본 개시에 따른 방법을 구현하기 위해서, 예시하는 단계에 추가적으로 다른 단계를 포함하거나, 일부의 단계를 제외하고 나머지 단계를 포함하거나, 또는 일부의 단계를 제외하고 추가적인 다른 단계를 포함할 수도 있다.Exemplary methods of this disclosure are presented as a series of operations for clarity of explanation, but this is not intended to limit the order in which steps are performed, and each step may be performed concurrently or in a different order, if desired. In order to implement the method according to the present disclosure, other steps may be included in addition to the exemplified steps, other steps may be included except for some steps, or additional other steps may be included except for some steps.

본 개시의 다양한 실시 예는 모든 가능한 조합을 나열한 것이 아니고 본 개시의 대표적인 양상을 설명하기 위한 것이며, 다양한 실시 예에서 설명하는 사항들은 독립적으로 적용되거나 또는 둘 이상의 조합으로 적용될 수도 있다.Various embodiments of the present disclosure are intended to explain representative aspects of the present disclosure, rather than listing all possible combinations, and matters described in various embodiments may be applied independently or in combination of two or more.

또한, 본 개시의 다양한 실시 예는 하드웨어, 펌웨어(firmware), 소프트웨어, 또는 그들의 결합 등에 의해 구현될 수 있다. 하드웨어에 의한 구현의 경우, 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 범용 프로세서(general processor), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다. In addition, various embodiments of the present disclosure may be implemented by hardware, firmware, software, or a combination thereof. For hardware implementation, one or more application specific integrated circuits (ASICs), digital signal processors (DSPs), digital signal processing devices (DSPDs), programmable logic devices (PLDs), field programmable gate arrays (FPGAs), It may be implemented by a processor (general processor), controller, microcontroller, microprocessor, or the like.

본 개시의 범위는 다양한 실시 예의 방법에 따른 동작이 장치 또는 컴퓨터 상에서 실행되도록 하는 소프트웨어 또는 머신-실행가능한 명령들(예를 들어, 운영체제, 애플리케이션, 펌웨어(firmware), 프로그램 등), 및 이러한 소프트웨어 또는 명령 등이 저장되어 장치 또는 컴퓨터 상에서 실행 가능한 비-일시적 컴퓨터-판독가능 매체(non-transitory computer-readable medium)를 포함한다. The scope of the present disclosure is software or machine-executable instructions (eg, operating systems, applications, firmware, programs, etc.) that cause operations according to methods of various embodiments to be executed on a device or computer, and such software or It includes a non-transitory computer-readable medium in which instructions and the like are stored and executable on a device or computer.

100 VCM 부호화기 110 특징 추출부
120 특징 부호화부 130 제어부
140 비디오 부호화부 150 데이터 송신부
200 VCM 복호화기 210 파싱부
220 특징 복호화부 230 비디오 복호화부
500 기계를 위한 영상 처리 장치
100 VCM encoder 110 feature extraction unit
120 feature encoding unit 130 control unit
140 video encoding unit 150 data transmission unit
200 VCM decoder 210 parsing unit
220 Feature decoding unit 230 Video decoding unit
Image processing unit for 500 machines

Claims (1)

비디오로부터 특징(feature)을 추출하여 상기 특징을 부호화하는 단계;
상기 비디오의 영상을 부호화하는 단계; 및
상기 부호화된 특징과 상기 부호화된 영상을 포함하는 부호화 데이터를 비트스트림(bitstream)하는 단계
를 포함하는, 기계를 위한 영상 처리 방법.
extracting a feature from the video and encoding the feature;
encoding an image of the video; and
Bitstreaming encoded data including the encoded feature and the encoded image
Including, image processing method for the machine.
KR1020220011629A 2022-01-26 2022-01-26 Video coding method and apparatus for machine KR20230115085A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220011629A KR20230115085A (en) 2022-01-26 2022-01-26 Video coding method and apparatus for machine

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220011629A KR20230115085A (en) 2022-01-26 2022-01-26 Video coding method and apparatus for machine

Publications (1)

Publication Number Publication Date
KR20230115085A true KR20230115085A (en) 2023-08-02

Family

ID=87566631

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220011629A KR20230115085A (en) 2022-01-26 2022-01-26 Video coding method and apparatus for machine

Country Status (1)

Country Link
KR (1) KR20230115085A (en)

Similar Documents

Publication Publication Date Title
CN112673625A (en) Hybrid video and feature encoding and decoding
US9635374B2 (en) Systems and methods for coding video data using switchable encoders and decoders
US10051271B2 (en) Coding structure
US11516478B2 (en) Method and apparatus for coding machine vision data using prediction
CN111741302B (en) Data processing method and device, computer readable medium and electronic equipment
WO2020001325A1 (en) Image encoding method, decoding method, encoder, decoder and storage medium
US20110249742A1 (en) Coupled video pre-processor and codec including reference picture filter that minimizes coding expense during pre-processing mode transitions
WO2021057697A1 (en) Video encoding and decoding methods and apparatuses, storage medium, and electronic device
US9967581B2 (en) Video quality adaptation with frame rate conversion
JP2012517178A (en) Apparatus and method for multi-view video encoding and decoding
CN106068650A (en) For the method revising binary video stream
Žádník et al. Image and video coding techniques for ultra-low latency
CN107396082B (en) Image data processing method and device
CN112383778B (en) Video coding method and device and decoding method and device
CN112291483B (en) Video pushing method and system, electronic equipment and readable storage medium
KR20220043912A (en) Method and Apparatus for Coding Feature Map Based on Deep Learning in Multitasking System for Machine Vision
US10536726B2 (en) Pixel patch collection for prediction in video coding system
WO2024078066A1 (en) Video decoding method and apparatus, video encoding method and apparatus, storage medium, and device
CN110572672B (en) Video encoding and decoding method and device, storage medium and electronic device
KR20230115085A (en) Video coding method and apparatus for machine
CN116366852A (en) Video coding and decoding method, device, equipment and medium for machine vision task
CN106060554A (en) ROI based space hierarchical coding device and method
CN101841704A (en) Method and device for compressing and decompressing video bit stream
EP3399751B1 (en) Bitstream transformation apparatus, bitstream transformation method, distribution system, and computer-readable storage medium
JP2016524247A (en) Automatic codec adaptation