KR20210040305A - 이미지 생성 방법 및 장치 - Google Patents

이미지 생성 방법 및 장치 Download PDF

Info

Publication number
KR20210040305A
KR20210040305A KR1020210037804A KR20210037804A KR20210040305A KR 20210040305 A KR20210040305 A KR 20210040305A KR 1020210037804 A KR1020210037804 A KR 1020210037804A KR 20210037804 A KR20210037804 A KR 20210037804A KR 20210040305 A KR20210040305 A KR 20210040305A
Authority
KR
South Korea
Prior art keywords
circumscribed rectangular
rectangular box
image
picture
target image
Prior art date
Application number
KR1020210037804A
Other languages
English (en)
Other versions
KR102648760B1 (ko
Inventor
양 지아오
이 양
지안구오 왕
이 리
시아오동 첸
린 리우
시앙 헤
얀펭 주
Original Assignee
바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 filed Critical 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
Publication of KR20210040305A publication Critical patent/KR20210040305A/ko
Application granted granted Critical
Publication of KR102648760B1 publication Critical patent/KR102648760B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • G06K9/20
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • G06T11/203Drawing of straight lines or curves
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/187Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/15Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18076Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by analysing connectivity, e.g. edge linking, connected component analysis or slices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Abstract

본 출원은 컴퓨터 시각 분야에 관한 것으로, 이미지 생성 방법 및 장치를 개시한다. 구체적인 실시형태는, 단말기에 사전 로딩된 웹페이지의 스크린샷을 획득하여 소스 이미지로 사용하고; 소스 이미지 중의 연결 도메인을 인식하고, 각 연결 도메인의 윤곽 밖에서 제1 외접 직사각형 박스를 생성하며; 연결 도메인 사이의 거리가 기설정 거리 임계값보다 작으면, 연결 도메인을 병합하고, 병합된 연결 도메인의 윤곽 밖에서 제2 외접 직사각형 박스를 생성하고; 제1 외접 직사각형 박스와 제2 외접 직사각형 박스 사이의 네스팅 관계 및 제1 외접 직사각형 박스 내의 픽처에 기반하여, 타깃 이미지를 생성하는 것이다. 소스 이미지 중 연결 도메인을 인식 및 병합하여 제1 외접 직사각형 박스 및 제2 외접 직사각형 박스를 각각 생성하며, 제1 외접 직사각형 박스 및 제2 외접 직사각형 박스 사이의 네스팅 관계를 통해 웹페이지 중 소재 사이의 공간 관계를 특성화함으로써, 생성된 타깃 이미지에서 소스 이미지 중 각각의 소재 사이의 공간 관계를 구현할 수 있다.

Description

이미지 생성 방법 및 장치{METHOD AND APPARATUS FOR GENERATING IMAGES}
본 출원은 이미지 생성 방법 및 장치를 개시하며, 컴퓨터 기술 분야에 관한 것으로, 특히 컴퓨터 시각 분야에 관한 것이다.
Html(하이퍼텍스트 마크업 언어) 웹페이지 중의 문자 및 픽처에는 흔히 중요한 정보가 포함되어 아주 큰 가치가 있는 소재이다. 관련 기술에서, html 웹페이지 중의 파일에 기반하여, 코딩 방식을 통해 그 중 추출하고자 하는 소재를 결정한 다음, 서버로부터 추출하고자 하는 소재에 대응되는 파일을 다운로드하여 html 웹페이지 중의 소재를 획득한다.
본 출원의 실시예는 이미지 생성 방법, 장치, 기기 및 저장 매체를 제공한다.
제1 양태에 따르면, 단말기에 사전 로딩된 웹페이지의 스크린샷을 획득하여 소스 이미지로 사용하는 단계; 소스 이미지 중의 연결 도메인을 인식하고, 각 연결 도메인의 윤곽 밖에서 제1 외접 직사각형 박스를 생성하는 단계; 연결 도메인 사이의 거리가 기설정 거리 임계값보다 작으면, 연결 도메인을 병합하고, 병합된 연결 도메인의 윤곽 밖에서 제2 외접 직사각형 박스를 생성하는 단계; 제1 외접 직사각형 박스와 제2 외접 직사각형 박스 사이의 네스팅 관계 및 제1 외접 직사각형 박스 내의 픽처에 기반하여, 타깃 이미지를 생성하는 단계를 포함하는 이미지 생성 방법을 제공한다.
제2 양태에 따르면, 단말기에 사전 로딩된 웹페이지의 스크린샷을 획득하여 소스 이미지로 사용하는 이미지 획득 모듈; 소스 이미지 중의 연결 도메인을 인식하고, 각 연결 도메인의 윤곽 밖에서 제1 외접 직사각형 박스를 생성하는 제1 생성 모듈; 연결 도메인 사이의 거리가 기설정 거리 임계값보다 작으면, 연결 도메인을 병합하고, 병합된 연결 도메인의 윤곽 밖에서 제2 외접 직사각형 박스를 생성하는 제2 생성 모듈; 및 제1 외접 직사각형 박스와 제2 외접 직사각형 박스 사이의 네스팅 관계 및 제1 외접 직사각형 박스 내의 픽처에 기반하여, 타깃 이미지를 생성하는 이미지 생성 모듈을 포하하는 이미지 생성 장치를 제공한다.
본 출원에 따른 기술은 관련 기술에서 웹페이지로부터 추출된 소재가 각각의 소재 사이의 공간 관계를 구현하지 못하는 문제를 해결하되, 소스 이미지 중 연결 도메인을 인식 및 병합하여 제1 외접 직사각형 박스 및 제2 외접 직사각형 박스를 각각 생성하며, 제1 외접 직사각형 박스 및 제2 외접 직사각형 박스 사이의 네스팅 관계를 통해 웹페이지 중 소재 사이의 공간 관계를 특성화함으로써, 생성된 타깃 이미지에서 소스 이미지 중 각각의 소재 사이의 공간 관계를 구현할 수 있다.
이 부분에서 설명된 내용은 본 출원의 실시예의 핵심 또는 중요 특징을 나타내는 것이 아니고, 본 출원의 범위를 한정하기 위한 것도 아님을 이해해야 한다. 본 출원의 다른 특징은 아래의 명세서를 통해 용이하게 이해될 것이다.
도면은 본 해결수단을 더 잘 이해하도록 제공되는 것으로, 본 출원을 한정하지 않는다.
도 1은 본 출원의 실시예가 적용될 수 있는 예시적 시스템 아키텍처도이다.
도 2a 및 도 2b는 본 출원의 실시예에 따른 이미지 생성 방법의 제1 실시예의 개략도이다.
도 3은 본 출원의 실시예에 따른 이미지 생성 방법의 응용 장면의 개략도이다.
도 4는 본 출원의 실시예에 따른 이미지 생성 방법의 제2 실시예의 개략도이다.
도 5는 본 출원의 실시예의 이미지 생성 방법을 구현하기 위한 전자 기기의 블록도이다.
도 6은 본 출원의 실시예를 구현할 수 있는 이미지 생성 방법의 장면도이다.
아래 도면과 결부시켜 본 출원의 예시적 실시예를 설명하되, 여기에 이해를 돕기 위한 본 출원의 실시예의 다양한 세부사항들이 포함되어 있으나, 이들은 단지 예시적인 것으로 이해해야 한다. 따라서, 본 기술분야의 통상의 기술자는 본 출원의 범위 및 정신을 벗어나지 않는 전제 하에 여기서 설명된 실시예에 대해 다양한 변형 및 수정을 진행할 수 있음을 이해해야 한다. 마찬가지로, 명확하고 간결한 설명을 위해, 아래의 설명에서 주지 기능 및 구조에 대한 설명을 생략한다.
도 1은 본 출원의 실시예에 따른 이미지 생성 방법 또는 이미지 생성 장치의 실시예를 구현할수 있는 예시적 시스템 아키텍처(100)를 나타낸다.
도 1에 도시된 바와 같이, 시스템 아키텍처(100)는 단말 기기(101, 102, 103), 네트워크(104) 및 서버(105)를 포함할 수 있다. 네트워크(104)는 단말 기기(101, 102, 103)와 서버(105) 사이에서 통신 링크의 매체를 제공한다. 네트워크(104)는 다양한 연결 타입을 포함할 수 있는 바, 예를 들어 유선, 무선 통신 링크 또는 광섬유 케이블 등이다.
사용자는 단말 기기(101, 102, 103)를 사용하여 네트워크(104)를 통해 서버(105)와 인터랙션함으로써 메시지 등을 수신 또는 송신할 수 있는데, 예를 들어, 사용자는 자신이 브라우징할 웹페이지 주소를 단말 기기에 입력할 수 있고, 단말 기기는 네트워크(104)를 통해 서버(105)로부터 데이터를 획득한 다음, 획득한 데이터에 기반하여, 단말기에 의해 해석, 렌더링 등 단계를 거친 후 웹페이지를 생성하고, 마지막으로 사용자에게 표시한다.
단말 기기(101, 102, 103)는 하드웨어일 수도 있고 소프트웨어일 수도 있다. 단말 기기(101, 102, 103)가 하드웨어인 경우 서버 및 다른 단말기와 데이터 인터랙션하는 기능을 구비하는 다양한 전자 기기일 수 있고, 스마트폰, 태블릿 PC 및 데스크톱 컴퓨터 등을 포함하나 이에 한정되지 않는다. 단말 기기(101, 102, 103)가 소프트웨어인 경우 상기 열거된 전자 기기에 설치될 수 있다. 이는 예를 들어 분산형 서비스를 제공하기 위한 다수의 소프트웨어 또는 소프트웨어 모듈로 구현될 수 있거나, 하나의 소프트웨어 또는 소프트웨어 모듈로 구현될 수 있으며 여기서는 구체적으로 한정하지 않는다.
서버(105)는 데이터 처리 서비스를 제공하는 서버일 수 있는데, 예를 들어, 단말 기기(101, 102, 103)에 의해 발송된 방문 요청에 따라, 단말 기기에 대응되는 데이터를 발송하여 단말 기기가 방문하고자 하는 웹페이지를 생성하도록 한다.
부연하여 설명하면, 본 출원의 실시예에 의해 제공되는 이미지 생성 방법은 서버(105)에 의해 수행될 수 있고, 이에 따라, 이미지 생성 장치는 일반적으로 서버(105)에 설치될 수 있다. 이때, 서버(105)는 네트워크(104)를 통해 단말 기기(101, 102, 103)에 사전 로딩된 웹페이지 정보를 획득한 다음, 획득한 웹페이지 정보에 따라 소스 이미지 및 소스 이미지로부터 추출된 소재를 생성한다. 본 출원의 실시예에 의해 제공되는 이미지 생성 방법은 단말 기기에 의해 수행될 수도 있고, 이에 따라, 이미지 생성 장치는 단말 기기에 설치될 수 있는데, 이때, 단말 기기는 네트워크(104)를 통해 다른 단말 기기와 통신 연결되어 다른 단말 기기에 사전 로딩된 웹페이지 정보를 획득한 다음, 획득한 웹페이지 정보에 따라 소스 이미지 및 소스 이미지로부터 추출된 소재를 생성한다. 여기서 한정하지 않는다.
계속하여 도 2a를 참조하면, 도 2a는 본 출원의 개시에 따른 이미지 생성 방법의 제1 실시예의 흐름도이고, 하기와 같은 단계를 포함한다.
단계 S201에서, 단말기에 사전 로딩된 웹페이지의 스크린샷을 획득하여 소스 이미지로 사용한다.
본 실시예에서, 수행 주체에 의해 추출된 객체는 단말기에 의해 표시된 웹페이지에 포함된 소재이고, 문자 소재 및 픽처 소재를 포함한다. 소스 이미지에 웹페이지 중의 소재가 포함될 뿐만 아니라, 각각의 소재 사이의 공간 관계도 포함된다.
예시로서, 하기와 같은 방식을 통해 소스 이미지를 생성할 수 있다. 수행 주체는 단말기에 사전 로딩된 웹페이지의 네트워크 주소를 획득하되, 네트워크 주소를 방문하여 획득한 웹페이지는 단말기에 사전 로딩된 웹페이지이다. 다음, 획득한 웹페이지를 캡쳐하며, 획득한 웹페이지 스크린샷을 소스 이미지로 사용한다. 예를 들어, 수행 주체는 snapshot 툴을 통해 이상 단계들을 수행할 수도 있고, 네트워크를 통해 단말기에 의해 발송된 웹페이지의 스크린샷을 직접 수신할 수도 있으나, 본 출원은 이에 대해 한정하지 않는다.
단계 S202에서, 소스 이미지 중의 연결 도메인을 인식하고, 각 연결 도메인의 윤곽 밖에서 제1 외접 직사각형 박스를 생성한다.
연결 도메인은 연결 영역으로 불리기도 하며, 이는 이미지에 동일한 픽셀값이 구비되고 위치가 인접한 전경 픽셀점으로 구성된 이미지 영역을 의미한다. 연결 도메인 분석을 통해 이미지 중의 각각의 연결 도메인을 인식하고, 연결 도메인의 윤곽 밖에서 외접 직사각형 박스를 생성할 수 있다. 연결 도메인 분석 기술은 이미지 처리 분야에 속하는 관용적 기술 수단인 바, 예를 들어, Two-Pass 방법, OCR 알고리즘(Optical Character Recognition, 광학 캐릭터 인식) 등은 모두 이러한 기능을 구현할 수 있으나, 본 출원은 이에 대해 한정하지 않는다.
본 실시예에서, 제1 외접 직사각형 박스는 소스 이미지 중의 최소 연결 도메인을 표기하기 위한 것이다. 예를 들어, 수행 주체(도 1에 도시된 단말기)는 OCR 알고리즘을 통해 소스 이미지 중의 연결 도메인을 인식하되, 소스 이미지에 한 단락의 문자가 존재하고 각 행의 문자가 이미지 중의 영에서 모두 하나의 연결 도메인으로 인식되고, 이에 따라, 각 행의 문자가 이미지 중의 영역 윤곽 밖에서 모두 하나의 제1 외접 직사각형 박스를 생성한다고 가정하면, 수행 주체는 상기 단락의 문자 이미지로부터 다수의 연결 도메인을 인식하고, 다수의 제1 외접 직사각형 박스를 생성할 수 있다.
부연하여 설명하면, 최소 연결 도메인의 인식 정확도는 실제 요구에 따라 조정될 수 있는데, 예를 들어, 상기 예시에서, 동일 단락의 문자를 하나의 연결 도메인으로 인식할 수 있으면, 이에 따라, 상기 단락의 문자는 소스 이미지 중의 영역에서 하나의 제1 외접 직사각형 박스를 생성할 수 있다. 본 출원은 이에 대해 한정하지 않는다.
단계 S203에서, 연결 도메인 사이의 거리가 기설정 거리 임계값보다 작으면, 연결 도메인을 병합하고, 병합된 연결 도메인의 윤곽 밖에서 제2 외접 직사각형 박스를 생성한다.
본 실시예에서, 제2 외접 직사각형 박스는 네스팅 관계가 존재하는 외접 직사각형 박스를 특성화하기 위한 것이다. 연결 도메인의 병합을 통해, 다층의 네스팅 관계를 포함하는 제2 외접 직사각형 박스를 획득할 수 있다. 연결 도메인 사이의 거리는 소스 이미지 중 연결 도메인에 포함된 소재 사이의 위치 관계를 특성화하기 위한 것이다.
또한 도 2b와 결부하여 설명하되, 도 2b는 본 실시예의 하나의 구체적인 예시를 나타내고, 연결 도메인 1, 2, 3, 4(도 2b에서 201, 202, 203, 204로 도시됨)는 제1 외접 직사각형 박스 a, b, c, d(도 2b에서 205, 206, 207, 208로 도시됨)에 각각 대응된다. 수행 주체는 단계 S203를 수행하여, 연결 도메인 1과 2를 병합하여 연결 도메인 5(도 2b에서 209로 도시됨)를 획득하고, 연결 도메인 3과 4를 병합하여 연결 도메인 6(도 2b에서 210으로 도시됨)을 획득하며; 다음, 연결 도메인5의 윤곽 밖에서 제2 직사각형 박스 e(도 2b에서 211로 도시됨)를 생성하고, 연결 도메인6의 윤곽 밖에서 제2 검출 박스 f(도 2b에서 212로 도시됨)를 생성하며; 그 다음, 연결 도메인 5와 연결 도메인 6 사이의 거리가 여전히 기설정 거리 임계값보다 작으면, 수행 주체는 계속하여 연결 도메인 5와 연결 도메인 6을 병합하여 연결 도메인7(도 2b에서 213으로 도시됨)을 획득하고, 연결 도메인 7의 윤곽 밖에서 제2 검출 박스 g(도 2b에서 214로 되시됨)를 생성한다. 마지막으로, 제2 외접 직사각형 박스 e, f 및 g를 획득하되, 여기서, 제2 외접 직사각형 박스 g는 제2 외접 직사각형 박스 및 f를 포함하고, 제2 외접 직사각형 박스 e는 제1 외접 직사각형 박스 a 및 b를 포함하며, 제2 외접 직사각형 박스 f는 제1 외접 직사각형 박스 c 및 d를 포함한다. 각각의 외접 직사각형 박스 사이의 관계가 바로 제1 외접 직사각형 박스와 제2 외접 직사각형 박스 사이의 네스팅 관계이고, 이는 각각의 연결 도메인 중의 소재 사이의 공간 관계를 특성화할 수 있다.
단계 S204에서, 제1 외접 직사각형 박스 및 제2 외접 직사각형 박스 사이의 네스팅 관계 및 제1 외접 직사각형 박스 내의 픽처에 기반하여, 타깃 이미지를 생성한다.
본 실시예에서, 제1 외접 직사각형 박스 내의 픽처는 소스 이미지로부터 추출할, 타깃 이미지의 기본 요소를 생성하기 위한 소재를 나타내고, 제1 외접 직사각형 박스 및 제2 외접 직사각형 박스 사이의 네스팅 관계는 소스 이미지 중 각각의 소재 사이의 공간 관계를 특성화하기 위한 것이다.
수행 주체가 제1 외접 직사각형 박스 내의 픽처를 단계 S203에서 획득한 네스팅 관계에 따라 함께 조합하여 생성한 이미지가 바로 타깃 이미지이다.
하나의 구체적인 예시에서, 하기와 같은 방식을 통해 타깃 이미지를 생성할 수 있다. 수행 주체는 rect 함수를 이용하여 제1 외접 직사각형 박스 및 제2 외접 직사각형 박스를 특성화할 수 있고, 각각의 rect에는 소스 이미지에서의 하나의 외접 직사각형 박스의 좌측 상단의 좌표 및 외접 직사각형 박스의 길이 및 폭이 저장됨으로써, 각각의 rect는 하나의 제1 외접 직사각형 박스 또는 하나의 제2 외접 직사각형 박스를 대표한다. 다음, 수행 주체는 rect 개수가 가장 많은 rect를 부노드(father node)로서 포함하고, 제1 외접 직사각형 박스 및 제2 외접 직사각형 박스 사이의 네스팅 관계에 따라, rect 트리 구조를 구축하며, 트리 구조 중의 각각의 노드는 모두 하나의 제1 외접 직사각형 박스 또는 하나의 제2 외접 직사각형 박스를 대표하고, 그 중 최저층 노드는 소스 이미지 중의 제1 외접 직사각형 박스를 대표한다. 마지막으로, 수행 주체는 트리 구조에 따라, 제1 외접 직사각형 박스 내의 픽처를 함께 조합하면, 타깃 이미지를 획득할 수 있다.
계속하여 도 3을 참조하면, 도 3은 본 출원의 개시에 따른 이미지 생성 방법의 장면 개략도이다. 상기 응용 장면에서, 수행 주체(306)는 단말 기기 또는 서버일 수 있다. 수행 주체는 네트워크를 통해 단말기(305)에 사전 로딩된 웹페이지의 스크린샷(301)을 획득하고, 그 중의 연결 도메인을 인식하여 각각의 제1 검출 박스(도 3에서 302로 도시됨)를 획득한 다음, 거리가 기설정 거리 임계값보다 작은 연결 도메인을 병합하여 각각의 제2 검출 박스(도 3에서 303으로 도시됨)를 획득하고, 마지막으로, 제1 검출 박스와 제2 검출 박스 사이의 네스팅 관계에 기반하여, 제1 검출 박스 내의 픽처를 타깃 이미지(304)로 조합한다.
본 출원에 의해 개시된 상기 실시예에 따른 이미지 생성 방법은, 소스 이미지 중 연결 도메인을 인식 및 병합하여 제1 외접 직사각형 박스 및 제2 외접 직사각형 박스를 각각 생성하며, 제1 외접 직사각형 박스 및 제2 외접 직사각형 박스 사이의 네스팅 관계를 통해 웹페이지 중 소재 사이의 공간 관계를 특성화함으로써, 생성된 타깃 이미지에서 소스 이미지 중 각각의 소재 사이의 공간 관계를 구현할 수 있다.
계속하여 도 4를 참조하면, 도 4는 본 출원의 개시에 따른 이미지 생성 방법의 제2 실시예의 흐름도를 나타내고, 하기와 같은 단계를 포함한다.
단계 S401에서, 단말기에 사전 로딩된 웹페이지의 스크린샷을 획득하여 소스 이미지로 사용한다. 해당 단계는 전술한 단계 S201과 대응되므로, 여기서 더 이상 설명하지 않는다.
단계 S402에서, 소스 이미지 중의 연결 도메인을 인식하고, 각 연결 도메인의 윤곽 밖에서 제1 외접 직사각형 박스를 생성한다. 해당 단계는 전술한 단계 S202와 대응되므로, 여기서 더 이상 설명하지 않는다.
단계 S403에서, 연결 도메인 사이의 거리가 기설정 거리 임계값보다 작으면, 연결 도메인을 병합하고, 병합된 연결 도메인의 윤곽 밖에서 제2 외접 직사각형 박스를 생성한다. 해당 단계는 전술한 단계 S203과 대응되므로, 여기서 더 이상 설명하지 않는다.
단계 S404에서, 제1 외접 직사각형 박스 내의 픽처의 해상도가 기설정 해상도 임계값보다 작으면, 상기 제1 외접 직사각형 박스를 삭제한다. 이로써, 소스 이미지로부터 해상도가 비교적 낮은 소재를 추출하지 않도록 방지함으로써, 생성된 타깃 이미지의 품질을 보장할 수 있다.
단계 S405에서, 소스 이미지에서의 제1 외접 직사각형 박스의 위치에 기반하여, 소스 이미지 중 기설정 영역에 위치한 제1 외접 직사각형 박스를 삭제한다.
본 실시예에서, 기설정 영역은 소스 이미지 중 중요성이 비교적 낮은 소재가 위치한 영역을 나타내는데, 예를 들어, 소스 이미지의 저부 영역 및 최상부 영역일 수 있고, 일반적으로 웹페이지는 중요성이 비교적 낮은 문자 또는 픽처(예를 들어, 웹페이지에 노출된 광고 등)를 이 2개의 영역에 노출시킨다. 제1 외접 직사각형 박스는 소스 이미지에 추출할 소재가 위치한 위치 및 영역을 표기하여 수행 주체가 상기 영역 내의 이미지를 소스 이미지로부터 추출하도록 함으로써, 소스 이미지로부터 소재를 추출하는 단계를 완성한다. 따라서, 제1 외접 직사각형 박스의 삭제는 상기 제1 외접 직사각형 박스 내의 이미지가 추출되지 않음을 의미한다.
수행 주체는 기설정 영역에 위치한 제1 외접 직사각형 박스를 삭제하고, 이러한 가치가 낮은 소재를 필터링할 수 있음으로써, 연산량을 감소시키고, 생성된 타깃 이미지에 가치가 낮은 소재가 포함되지 않도록 방지한다.
단계 S406에서, 제1 외접 직사각형 박스 내의 픽처를 인식하여 제1 외접 직사각형 박스 내의 픽처의 콘텐츠에 대응되는 인식 결과를 획득한다.
본 실시예에서, 제1 외접 직사각형 박스 내의 픽처는 문자 소재 픽처 및 이미지 소재 픽처를 포함하는데, 그 중에 가치가 낮은 소재가 포함되어 있을 수 있는 바, 예를 들어, 일부 문자 소개 픽처는 웹페이지 중의 광고 문구이고, 일부 이미지 소재 픽처는 logo 이미지 또는 웹페이지 중의 버튼의 픽처로, 이러한 소재에 포함되는 유효 정보가 비교적 적으므로, 가치도 비교적 낮다. 제1 외접 직사각형 박스 내의 픽처를 인식하여 픽처의 콘텐츠에 대응되는 인식 결과를 획득할 수 있고, 인식 결과는 상기 제1 외접 직사각형 박스 내의 픽처가 필터링이 필요한지 여부를 판단할 수 있다. 예를 들어, 수행 주체는 소스 이미지를 콘볼루션 뉴럴 네트워크 모델에 입력하여 소스 이미지 중 각각의 제1 외접 직사각형 박스 중 픽처의 인식 결과를 획득할 수 있고, 인식 결과는 예를 들어 문자, logo 이미지, 광고 문구 또는 버튼 이미지 등 다양한 타입일 수 있다.
단계 S407에서, 인식 결과에 기반하여, 기설정 조건에 부합되는 제1 외접 직사각형 박스를 삭제한다. 불필요한 소재를 제거하고 가치 있는 소재를 보류하기 위해, 기설정 조건은 실제 요구에 따라 설정될 수 있다.
본 실시예에서, 추출하고자 하는 소재는 문자 소재 및 이미지 소재를 포함하는데, 예를 들어, 기설정 조건을 logo 이미지, 버튼 이미지 및 광고 문구로 설정할 수 있되, 인신 결과가 이상의 3가지이면, 수행 주체는 대응되는 제1 외접 직사각형 박스를 삭제함으로써, 후속적으로 타깃 이미지를 생성할 시 상기 부분 픽처 영역 중의 콘텐츠를 포함하지 않을 수 있으므로, 소스 이미지로부터 추출된 콘텐츠에 대한 필터링을 구현하고, 가치가 비교적 낮은 소재를 생성된 타깃 이미지에 추가하지 않도록 방지한다.
본 실시예의 일부 선택 가능한 실시형태에서, 기설정 조건에 부합되는 제1 외접 직사각형 박스를 삭제하는 단계 이전에, 인식 결과에 기반하여, 인식 결과에 대응되는 제1 외접 직사각형 박스 내의 픽처를 기설정 위치에 저장하는 단계를 더 포함할 수 있다. 실제 응용 장면에서, 비록 소스 이미지 중의 일부 픽처는 타깃 이미지가 불필요한 것이나, 다른 용도로 사용될 수 있는데, 예를 들어, 소스 이미지 중의 logo 이미지는 웹페이지의 상업 데이터 분석에 사용될 수 있고, 버튼 이미지는 웹페이지의 인터랙션 기능 분석 등에 사용될 수 있으므로, 수행 주체는 인식된 logo 이미지 및 버튼 이미지를 대응되는 저장 위치에 각각 저장하여 후속적으로 응용할 수 있다.
단계 S408에서, 제1 외접 직사각형 박스와 제2 외접 직사각형 박스 사이의 네스팅 관계에 기반하여, 각 제1 외접 직사각형 박스 내의 픽처를 초기 타깃 이미지로 조합한다. 해당 단계는 전술한 단계 S204에서 타깃 이미지를 생성하는 단계와 유사하나, 본 실시예에서 제1 외접 직사각형 박스와 제2 외접 직사각형 박스 사이의 네스팅 관계에 기반하여, 각 제1 외접 직사각형 박스 내의 픽처로 조합된 이미지를 초기 타깃 이미지로 사용하고, 후속 단계를 거쳐 처리한 후 다시 타깃 이미지를 획득하는 것에 차이가 있다.
단계 S409에서, 초기 타깃 이미지 중의 핵심 영역을 결정하는 단계, 여기서 초기 타깃 이미지 중의 핵심 영역은 초기 타깃 이미지에서 기설정 타깃이 포함된 영역이다.
본 실시예에서, 기설정 타깃은 초기 타깃 이미지에 관련 키 정보가 포함된 소재를 특성화하기 위한 것으로, 기설정 타깃은 얼굴을 포함하는 이미지 및 밀집 문자 중 적어도 하나를 포함한다. 예시로서, 수행 주체는 세일리언시 검출 알고리즘(Saliency detection algorithm)을 사용하여 초기 타깃 이미지로부터 얼굴을 포함하는 이미지 및 밀집 문자가 위치한 영역, 즉 초기 타깃 이미지 중의 핵심 영역을 인식할 수 있는데, 부연하여 설명하면, 핵심 영역의 개수는 하나 또는 복수 개일 수 있고, 초기 타깃 이미지 중의 얼굴 이미지 영역 또는 문자 밀집 영역의 개수에 의해 결정된다.
단계 S410에서, 기설정된 자르기 비율 및 사이즈에 기반하여, 초기 타깃 이미지를 분할하여 분할된 핵심 영역의 픽처를 획득한다.
본 실시예에서, 수행 주체는 실제 요구에 따라 자르기 비율 및 사이즈를 미리 설정하고, 초기 타깃 이미지를 분할하여 다수의 자르기 비율 및 사이즈가 일치한 분할된 픽처를 획득한 다음, 핵심 영역 밖의 픽처를 삭제함으로써, 분할된 핵심 영역의 픽처를 획득할 수 있다. 예를 들어, 초기 타깃 이미지가 다수의 문자 밀집 영역 및 다수의 얼굴 이미지 영역을 포함할 경우, 수행 주체는 초기 타깃 이미지를 분할한 후 다수의 핵심 영역의 픽처를 획득할 수 있으나, 핵심 영역에 위치하지 않은 다른 픽처는 분할 후 삭제된다.
단계 S411에서, 분할된 핵심 영역의 픽처의 특징 정보에 기반하여, 분할된 핵심 영역의 픽처를 통합하여 타깃 이미지를 획득한다. 특징 정보는 사이즈, 횡종비 및 픽처의 구성 속성 중 적어도 하나를 포함한다.
본 실시예에서, 픽처의 구성 속성은 문자 및 이미지를 포함하고, 상기 픽처에 포함된 소재 콘텐츠가 문자인지 아니면 이미지인지를 특성화하기 위한 것이다.
단계 S410에서 획득한 분할된 핵심 영역의 픽처의 특징 정보에 기반하여, 수행 주체는 기설정 규칙에 따라 각각의 분할된 핵심 영역의 픽처를 함께 통합하여 타깃 이미지를 획득할 수 있다. 예를 들어, 구성 속성은 문자이고 또한 사이즈가 동일한 분할된 핵심 영역의 픽처를 함께 스티칭할 수 있음으로써, 연관성을 갖는 2개의 영역 중의 문자를 전체적인 단락의 문자로 통합하여, 문자 소재 사이의 연속성을 보장한다. 또한 예를 들어, 구성 속성이 이미지이고 또한 횡종비 및 사이즈가 모두 동일한 다수의 분할된 핵심 영역의 픽처를 하나의 영역으로 통합하여, 다수의 이미지 소재 사이의 비율 및 관계를 부각시킬 수 있다.
도 4로부터 알 수 있는 바, 제2 실시예는 도 2에 도시된 제1 실시예에 비해, 네스팅 관계에 따라 초기 타깃 이미지를 생성하고 그 핵심 영역을 인식한 다음, 초기 타깃 이미지를 분할 및 통합하는 단계, 및 기설정 규칙에 따라 소스 이미지로부터 소재를 추출하여 필터링하는 단계를 구현한다. 초기 타깃 이미지의 분할 및 통합을 통해, 초기 타깃 이미지로부터 중요 소재를 추가적으로 추출하고, 기설정 규칙에 따라 소스 이미지로부터 추출된 소재를 필터링할 수 있으면, 소스 이미지 중 가치가 비교적 낮은 소재를 제거할 수 있고, 타깃 이미지에 가치가 비교적 낮은 소재가 포함되지 않도록 방지함으로써, 생성된 타깃 이미지에 포함되는 소재의 품질을 향상시킨다.
도 5는 본 출원의 개시에 따른 이미지 생성 방법의 전자 기기의 블록도를 나타낸다. 상기 전자 기기는, 단말기에 사전 로딩된 웹페이지의 스크린샷을 획득하여 소스 이미지로 사용하는 이미지 획득 모듈(501); 소스 이미지 중의 연결 도메인을 인식하고, 각 연결 도메인의 윤곽 밖에서 제1 외접 직사각형 박스를 생성하는 제1 생성 모듈(502); 연결 도메인 사이의 거리가 기설정 거리 임계값보다 작으면, 연결 도메인을 병합하고, 병합된 연결 도메인의 윤곽 밖에서 제2 외접 직사각형 박스를 생성하는 제2 생성 모듈(503); 및 제1 외접 직사각형 박스와 제2 외접 직사각형 박스 사이의 네스팅 관계 및 제1 외접 직사각형 박스 내의 픽처에 기반하여, 타깃 이미지를 생성하는 이미지 생성 모듈(504)을 포함한다.
본 실시예에서, 이미지 생성 모듈(504)은, 제1 외접 직사각형 박스와 제2 외접 직사각형 박스 사이의 네스팅 관계에 기반하여, 각 제1 외접 직사각형 박스 내의 픽처를 초기 타깃 이미지로 조합하는 초기 이미지 모듈; 초기 타깃 이미지 중의 핵심 영역을 결정하는 영역 인식 모듈 - 초기 타깃 이미지 중의 핵심 영역은 초기 타깃 이미지에서 기설정 타깃이 포함된 영역임 -; 기설정된 자르기 비율 및 사이즈에 기반하여, 초기 타깃 이미지의 픽처를 분할하여 분할된 핵심 영역의 픽처를 획득하는 이미지 분할 모듈; 분할된 핵심 영역의 픽처의 특징 정보에 기반하여, 분할된 핵심 영역의 픽처를 통합하여 타깃 이미지를 획득하는 픽처 통합 모듈을 포함하고, 특징 정보는 사이즈, 횡종비 및 픽처의 구성 속성 중 적어도 하나를 포함한다.
본 실시예에서, 상기 장치는, 제1 외접 직사각형 박스 내의 픽처의 핵심 영역을 결정하는 단계 이전에, 제1 외접 직사각형 박스 내의 픽처를 인식하여 제1 외접 직사각형 박스 내의 픽처의 콘텐츠에 대응되는 인식 결과를 획득하는 단계; 및 인식 결과에 기반하여, 기설정 조건에 부합되는 제1 외접 직사각형 박스를 삭제하는 단계를 수행하는 픽처 인식 모듈을 더 포함한다.
본 실시예에서, 픽처 인식 모듈은 또한, 기설정 조건에 부합되는 제1 외접 직사각형 박스를 삭제하기 전에, 인식 결과에 기반하여, 인식 결과에 대응되는 제1 외접 직사각형 박스 내의 픽처를 기설정 위치에 저장한다.
본 실시예에서, 상기 장치는, 제1 외접 직사각형 박스 내의 픽처의 핵심 영역을 결정하기 전에, 소스 이미지에서의 제1 외접 직사각형 박스의 위치에 기반하여, 소스 이미지 중 기설정 영역에 위치한 제1 외접 직사각형 박스를 삭제하는 위치 검출 모듈을 더 포함한다.
본 실시예에서, 상기 장치는, 초기 타깃 이미지를 생성하는 단계 이전에, 제1 외접 직사각형 박스 내의 픽처의 해상도가 기설정 해상도 임계값보다 작으면, 제1 외접 직사각형 박스를 삭제하는 해상도 검출 모듈을 더 포함한다.
본 출원의 실시예에 따르면, 본 출원은 전자 기기 및 판독 가능한 저장 매체를 더 제공한다.
도 6에 도시된 바와 같이, 본 출원의 실시예에 따른 이미지 생성 방법의 전자 기기의 블록도를 나타낸다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 운영 플랫폼, 개인 정보 단말기, 서버, 블레이드 서버, 대형 컴퓨터, 및 다른 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 의미한다. 전자 기기는 개인 디지털 처리, 셀룰러폰, 스마트폰, 웨어러블 기기 및 다른 유사한 컴퓨팅 장치와 같은 다양한 형태의 이동 장치를 의미할 수도 있다. 본문에서 나타낸 부재, 이들의 연결과 관계, 및 이들의 기능은 단지 예시적인 것으로, 본문에서 설명 및/또는 요구된 본 출원의 구현을 한정하지 않는다.
도 6에 도시된 바와 같이, 상기 전자 기기는 하나 또는 다수의 프로세서(601), 메모리(602), 및 고속 인터페이스 및 저속 인터페이스를 포함하는 각 부재를 연결하기 위한 인터페이스를 포함한다. 각 부재는 상이한 버스를 이용하여 서로 연결되고, 공통 메인보드에 장착될 수 있거나 필요에 따라 다른 방식으로 장착될 수 있다. 프로세서는, 메모리에 저장되거나 메모리에서 외부 입력/출력 장치(예를 들어, 인터페이스에 커플링된 표시 기기)에 GUI의 그래픽 정보를 표시하는 명령어를 포함하는 전자 기기 내에서 실행되는 명령어를 처리할 수 있다. 다른 실시형태에서, 필요에 따라 다수의 프로세서 및/또는 다수의 버스를 다수의 메모리와 함께 사용할 수 있다. 마찬가지로, 다수의 전자 기기를 연결할 수 있고, 각 기기는 일부 필요한 동작(예를 들어, 서버 어레이, 일 세트의 블레이드 서버, 또는 다중 프로세서 시스템)을 제공한다. 도 6에서 하나의 프로세서(601)를 예로 든다.
메모리(602)는 본 출원에 의해 제공되는 비일시적 컴퓨터 판독 가능한 저장 매체이다. 여기서, 메모리에 적어도 하나의 프로세서가 본 출원에 의해 제공되는 이미지 생성 방법을 수행하도록 하는 적어도 하나의 프로세서에 의해 실행 가능한 명령어가 저장된다. 본 출원의 비일시적 컴퓨터 판독 가능한 저장 매체는 본 출원에 의해 제공되는 이미지 생성 방법을 수행하도록 하는 컴퓨터 명령어를 저장한다.
메모리(602)는 비일시적 컴퓨터 판독 가능한 저장 매체로서, 비일시적 소프트웨어 프로그램, 비일시적 컴퓨터 실행 가능한 프로그램, 및 본 출원의 실시예의 이미지 생성 방법에 대응되는 프로그램 명령어/모듈(예를 들어, 도 5에 도시된 이미지 획득 모듈(501), 제1 생성 모듈(502), 제2 생성 모듈(503) 및 이미지 생성 모듈(504))과 같은 모듈을 저장할 수 있다. 프로세서(601)는 메모리(602)에 저장된 비일시적 소프트웨어 프로그램, 명령어 및 모듈을 실행함으로써, 서버의 다양한 기능 애플리케이션 및 데이터 처리를 수행하는데, 즉 상기 방법 실시예의 이미지 생성 방법을 구현한다.
메모리(602)는 프로그램 저장 영역 및 데이터 저장 영역을 포함할 수 있고, 여기서, 프로그램 저장 영역은 운영 체제, 적어도 하나의 기능에 필요한 응용 프로그램을 저장할 수 있으며; 데이터 저장 영역은 이미지 생성을 위한 전자 기기의 사용에 따라 구축한 다양한 데이터 등을 저장할 수 있다. 이 밖에, 메모리(602)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 적어도 하나의 자기 디스크 메모리, 플래시 메모리, 또는 다른 비일시적 고체 상태 메모리와 같은 비일시적 메모리를 더 포함할 수 있다. 일부 실시예에서, 메모리(602)는 프로세서(601)에 대해 원격으로 설치된 메모리를 선택적으로 포함할 수 있고, 이러한 원격 메모리는 네트워크를 통해 이미지 생성을 위한 전자 기기 연결될 수 있다. 상기 네트워크의 구현예로 인터넷, 인트라넷, 근거리 통신망, 이동 통신망 및 이들의 조합을 포함하나 이에 한정되지 않는다.
이미지 생성을 위한 전자 기기는 입력 장치(603) 및 출력 장치(604)를 더 포함할 수 있다. 프로세서(601), 메모리(602), 입력 장치(603) 및 출력 장치(604)는 버스 또는 다른 방식을 통해 연결될 수 있고, 도 6에서 버스를 통해 연결되는 것을 예로 든다.
입력 장치(603)는 입력된 디지털 또는 문자 정보를 수신할 수 있고, 이미지 생성을 위한 전자 기기의 사용자 설정 및 기능 제어와 관련된 키 신호 입력을 발생할 수 있으며, 상기 입력 장치는 예를 들어 터치스크린, 키패드, 마우스, 트랙 패널, 터치 패널, 지시 바, 하나 또는 다수의 마우스 버튼, 트랙 볼, 조이스틱 등 입력 장치이다. 출력 장치(604)는 표시 기기, 보조 조명 장치(예를 들어, LED) 및 촉각 피드백 장치(예를 들어, 진동 모터) 등을 포함할 수 있다. 상기 표시 기기는 액정 표시 장치(LCD), 발광 다이오드(LED) 표시 장치 및 플라스마 표시 장치를 포함할 수 있으나 이에 한정되지 않는다. 일부 실시형태에서, 표시 기기는 터치스크린일 수 있다.
여기서 설명된 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 전용 ASIC(전용 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 실시형태는 하나 또는 다수의 컴퓨터 프로그램에서의 구현을 포함할 수 있고, 상기 하나 또는 다수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 실행 및/또는 해석될 수 있으며, 상기 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치, 및 적어도 하나의 출력 장치로부터 데이터 및 명령어를 수신할 수 있으며, 데이터 및 명령어를 상기 저장 시스템, 상기 적어도 하나의 입력 장치, 및 상기 적어도 하나의 출력 장치에 전송할 수 있다.
이러한 컴퓨팅 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 또는 코드라고도 함)은 프로그램 가능 프로세서의 기계 명령어를 포함하고, 하이레벨 프로세스 및/또는 객체에 대한 프로그래밍 언어, 및/또는 어셈블리/기계 언어를 이용하여 이러한 컴퓨팅 프로그램을 실행할 수 있다. 본문에서 사용된 바와 같이, 용어 "기계 판독 가능한 매체” 및 "컴퓨터 판독 가능한 매체”는 기계 명령어 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 컴퓨터 프로그램 제품, 기기, 및/또는 장치(예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 로직 장치(PLD))를 의미하고, 기계 판독 가능한 신호인 기계 명령어를 수신하는 기계 판독 가능한 매체를 포함한다. 용어 "기계 판독 가능한 신호”는 기계 명령어 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 의미한다.
사용자와의 인터랙션을 제공하기 위하여, 컴퓨터에서 여기서 설명된 시스템 및 기술을 실시할 수 있고, 상기 컴퓨터는 사용자에게 정보를 표시하기 위한 표시 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 표시 장치) 모니터); 및 키보드 및 지향 장치(예를 들어, 마우스 또는 트랙 볼)를 구비하며, 사용자는 상기 키보드 및 상기 지향 장치를 통해 컴퓨터에 입력을 제공한다. 다른 타입의 장치는 또한 사용자와의 인터랙션을 제공할 수 있는데, 예를 들어, 사용자에게 제공된 피드백은 임의의 형태의 감지 피드백(예를 들어, 시각 피드백, 청각 피드백, 또는 촉각 피드백)일 수 있고; 임의의 형태(소리 입력, 음성 입력, 또는 촉각 입력)로 사용자로부터의 입력을 수신할 수 있다.
여기서 설명된 시스템 및 기술을 백그라운드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버), 또는 미들웨어 부재를 포함하는 컴퓨팅 시스템(예를 들어, 응용 서버), 또는 프론트 엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 웹 브라우저를 구비하는 사용자 컴퓨터이고, 사용자는 상기 그래픽 사용자 인터페이스 또는 웹 브라우저를 통해 여기서 설명된 시스템 및 기술의 실시형태와 인터랙션할 수 있음), 또는 이러한 백그라운드 부재, 미들웨어 부재, 또는 프론트 엔드 부재의 임의의 조합을 포함하는 컴퓨팅 시스템에서 실시할 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 시스템의 부재를 서로 연결시킬 수 있다. 통신 네트워크의 예시로 근거리 통신망(LAN), 광역 통신망(WAN) 및 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있고 일반적으로 통신 네트워크를 통해 서로 인터랙션한다. 대응되는 컴퓨터에서 실행되고 또한 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램을 통해 클라이언트 및 서버의 관계를 생성한다.
본 출원의 실시예에 따른 기술적 해결수단은, 소스 이미지 중 연결 도메인을 인식 및 병합하여 제1 외접 직사각형 박스 및 제2 외접 직사각형 박스를 각각 생성하며, 제1 외접 직사각형 박스 및 제2 외접 직사각형 박스 사이의 네스팅 관계를 통해 웹페이지 중 소재 사이의 공간 관계를 특성화함으로써, 생성된 타깃 이미지에서 소스 이미지 중 각각의 소재 사이의 공간 관계를 구현할 수 있다.
위에서 설명한 다양한 형태의 프로세스를 사용하여 단계를 재배열, 추가 또는 삭제할 수 있음을 이해해야 한다. 예를 들어, 본 출원에 기재된 각 단계는 동시에 수행될 수 있거나 순차적으로 수행될 수 있거나 상이한 순서로 수행될 수 있고, 본 출원에서 개시된 기술적 해결수단이 이루고자 하는 결과를 구현할 수만 있으면, 본문은 여기서 한정하지 않는다.
상기 구체적인 실시형태는 본 출원의 보호 범위를 한정하지 않는다. 본 기술분야의 통상의 기술자는 설계 요구 및 다른 요소에 따라 다양한 수정, 조합, 서브 조합 및 대체를 진행할 수 있음을 이해해야 한다. 본 출원의 정신 및 원칙 내에서 진행한 임의의 수정, 등가적 대체 및 개선 등은 모두 본 출원의 보호 범위 내에 속해야 한다.

Claims (15)

  1. 이미지 생성 방법으로서,
    단말기에 사전 로딩된 웹페이지의 스크린샷을 획득하여 소스 이미지로 사용하는 단계;
    상기 소스 이미지 중의 연결 도메인을 인식하고, 각 연결 도메인의 윤곽 밖에서 제1 외접 직사각형 박스를 생성하는 단계;
    상기 연결 도메인 사이의 거리가 기설정 거리 임계값보다 작으면, 상기 연결 도메인을 병합하고, 병합된 연결 도메인의 윤곽 밖에서 제2 외접 직사각형 박스를 생성하는 단계; 및
    상기 제1 외접 직사각형 박스와 상기 제2 외접 직사각형 박스 사이의 네스팅(nesting) 관계 및 상기 제1 외접 직사각형 박스 내의 픽처에 기반하여, 타깃 이미지를 생성하는 단계를 포함하는 이미지 생성 방법.
  2. 제1항에 있어서,
    상기 제1 외접 직사각형 박스와 상기 제2 외접 직사각형 박스 사이의 네스팅 관계 및 상기 제1 외접 직사각형 박스 내의 픽처에 기반하여, 타깃 이미지를 생성하는 단계는,
    상기 제1 외접 직사각형 박스와 상기 제2 외접 직사각형 박스 사이의 네스팅 관계에 기반하여, 각 상기 제1 외접 직사각형 박스 내의 픽처를 초기 타깃 이미지로 조합하는 단계;
    상기 초기 타깃 이미지 중의 핵심 영역을 결정하는 단계 - 상기 초기 타깃 이미지 중의 핵심 영역은 상기 초기 타깃 이미지에서 기설정 타깃이 포함된 영역임 -;
    기설정된 자르기 비율 및 사이즈에 기반하여, 상기 초기 타깃 이미지를 분할하여 분할된 핵심 영역의 픽처를 획득하는 단계; 및
    상기 분할된 핵심 영역의 픽처의 특징 정보에 기반하여, 상기 분할된 핵심 영역의 픽처를 통합하여 상기 타깃 이미지를 획득하는 단계를 포함하고,
    상기 특징 정보는 사이즈, 횡종비 및 픽처의 구성 속성 중 적어도 하나를 포함하는 이미지 생성 방법.
  3. 제2항에 있어서,
    초기 타깃 이미지를 생성하는 단계 이전에, 상기 방법은,
    상기 제1 외접 직사각형 박스 내의 픽처를 인식하여 상기 제1 외접 직사각형 박스 내의 픽처의 콘텐츠에 대응되는 인식 결과를 획득하는 단계; 및
    상기 인식 결과에 기반하여, 기설정 조건에 부합되는 제1 외접 직사각형 박스를 삭제하는 단계를 더 포함하는 이미지 생성 방법.
  4. 제3항에 있어서,
    기설정 조건에 부합되는 제1 외접 직사각형 박스를 삭제하는 단계 이전에, 상기 방법은,
    상기 인식 결과에 기반하여, 상기 인식 결과에 대응되는 제1 외접 직사각형 박스 내의 픽처를 기설정 위치에 저장하는 단계를 더 포함하는 이미지 생성 방법.
  5. 제3항에 있어서,
    초기 타깃 이미지를 생성하는 단계 이전에, 상기 방법은,
    상기 소스 이미지에서의 상기 제1 외접 직사각형 박스의 위치에 기반하여, 상기 소스 이미지 중 기설정 영역에 위치한 제1 외접 직사각형 박스를 삭제하는 단계를 더 포함하는 이미지 생성 방법.
  6. 제2항 내지 제5항 중 어느 한 항에 있어서,
    초기 타깃 이미지를 생성하는 단계 이전에, 상기 방법은,
    상기 제1 외접 직사각형 박스 내의 픽처의 해상도가 기설정 해상도 임계값보다 작으면, 상기 제1 외접 직사각형 박스를 삭제하는 단계를 더 포함하는 이미지 생성 방법.
  7. 이미지 생성 장치로서,
    단말기에 사전 로딩된 웹페이지의 스크린샷을 획득하여 소스 이미지로 사용하는 이미지 획득 모듈;
    상기 소스 이미지 중의 연결 도메인을 인식하고, 각 연결 도메인의 윤곽 밖에서 제1 외접 직사각형 박스를 생성하는 제1 생성 모듈;
    상기 연결 도메인 사이의 거리가 기설정 거리 임계값보다 작으면, 상기 연결 도메인을 병합하고, 병합된 연결 도메인의 윤곽 밖에서 제2 외접 직사각형 박스를 생성하는 제2 생성 모듈; 및
    상기 제1 외접 직사각형 박스와 상기 제2 외접 직사각형 박스 사이의 네스팅 관계 및 상기 제1 외접 직사각형 박스 내의 픽처에 기반하여, 타깃 이미지를 생성하는 이미지 생성 모듈을 포함하는 이미지 생성 장치.
  8. 제7항에 있어서,
    상기 이미지 생성 모듈은,
    상기 제1 외접 직사각형 박스와 상기 제2 외접 직사각형 박스 사이의 네스팅 관계에 기반하여, 각 상기 제1 외접 직사각형 박스 내의 픽처를 초기 타깃 이미지로 조합하는 초기 이미지 모듈;
    상기 초기 타깃 이미지 중의 핵심 영역을 결정하는 영역 인식 모듈 - 상기 초기 타깃 이미지 중의 핵심 영역은 상기 초기 타깃 이미지에서 기설정 타깃이 포함된 영역임 -;
    기설정된 자르기 비율 및 사이즈에 기반하여, 상기 초기 타깃 이미지를 분할하여 분할된 핵심 영역의 픽처를 획득하는 이미지 분할 모듈; 및
    상기 분할된 핵심 영역의 픽처의 특징 정보에 기반하여, 상기 분할된 핵심 영역의 픽처를 통합하여 상기 타깃 이미지를 획득하는 픽처 통합 모듈을 포함하고,
    상기 특징 정보는 사이즈, 횡종비 및 픽처의 구성 속성 중 적어도 하나를 포함하는 이미지 생성 장치.
  9. 제8항에 있어서,
    상기 장치는,
    초기 타깃 이미지를 생성하는 단계 이전에,
    상기 제1 외접 직사각형 박스 내의 픽처를 인식하여 상기 제1 외접 직사각형 박스 내의 픽처의 콘텐츠에 대응되는 인식 결과를 획득하는 단계; 및
    상기 인식 결과에 기반하여, 기설정 조건에 부합되는 제1 외접 직사각형 박스를 삭제하는 단계를 수행하는 픽처 인식 모듈을 더 포함하는 이미지 생성 장치.
  10. 제9항에 있어서,
    상기 픽처 인식 모듈은 또한,
    기설정 조건에 부합되는 제1 외접 직사각형 박스를 삭제하기 전에, 상기 인식 결과에 기반하여, 상기 인식 결과에 대응되는 제1 외접 직사각형 박스 내의 픽처를 기설정 위치에 저장하는 이미지 생성 장치.
  11. 제9항에 있어서,
    상기 장치는,
    상기 초기 타깃 이미지를 생성하기 전에, 상기 소스 이미지에서의 상기 제1 외접 직사각형 박스의 위치에 기반하여, 상기 소스 이미지 중 기설정 영역에 위치한 제1 외접 직사각형 박스를 삭제하는 위치 검출 모듈을 더 포함하는 이미지 생성 장치.
  12. 제8항 내지 제11항 중 어느 한 항에 있어서,
    상기 장치는,
    상기 초기 타깃 이미지를 생성하기 전에, 상기 제1 외접 직사각형 박스 내의 픽처의 해상도가 기설정 해상도 임계값보다 작으면, 상기 제1 외접 직사각형 박스를 삭제하는 해상도 검출 모듈을 더 포함하는 이미지 생성 장치.
  13. 전자 기기로서,
    적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하고,
    상기 메모리에 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령어가 저장되며, 상기 명령어는 상기 적어도 하나의 프로세서에 의해 실행되어 상기 적어도 하나의 프로세서가 제1항에 따른 이미지 생성 방법을 수행할 수 있도록 하는 전자 기기.
  14. 컴퓨터 명령어가 저장된 비일시적 컴퓨터 판독 가능한 저장 매체로서,
    상기 컴퓨터 명령어는 컴퓨터가 제1항에 따른 이미지 생성 방법을 수행하도록 하는 컴퓨터 명령어가 저장된 비일시적 컴퓨터 판독 가능한 저장 매체.
  15. 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램으로서,
    상기 컴퓨터 프로그램은 프로세서에 의해 실행될 경우, 제1항에 따른 이미지 생성 방법을 수행하도록 하는 컴퓨터 프로그램.
KR1020210037804A 2020-04-21 2021-03-24 이미지 생성 방법 및 장치 KR102648760B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010315358.9 2020-04-21
CN202010315358.9A CN113538450B (zh) 2020-04-21 2020-04-21 用于生成图像的方法及装置

Publications (2)

Publication Number Publication Date
KR20210040305A true KR20210040305A (ko) 2021-04-13
KR102648760B1 KR102648760B1 (ko) 2024-03-15

Family

ID=75108280

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210037804A KR102648760B1 (ko) 2020-04-21 2021-03-24 이미지 생성 방법 및 장치

Country Status (5)

Country Link
US (1) US11810333B2 (ko)
EP (1) EP3828766A3 (ko)
JP (1) JP7213291B2 (ko)
KR (1) KR102648760B1 (ko)
CN (1) CN113538450B (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230075006A (ko) 2021-11-22 2023-05-31 주식회사 신세계아이앤씨 상품 배너 자동 제작 및 관리 가능한 배너제작관리시스템

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10984066B2 (en) * 2019-01-02 2021-04-20 Zyte Group Limited System and method for a web scraping tool and classification engine
CN114943113B (zh) * 2022-07-26 2022-11-01 江西少科智能建造科技有限公司 多边形房间内布置散流器方法、系统、存储介质及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130061132A1 (en) * 2010-05-19 2013-03-07 Li-Wei Zheng System and method for web page segmentation using adaptive threshold computation
US20130283148A1 (en) * 2010-10-26 2013-10-24 Suk Hwan Lim Extraction of Content from a Web Page

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567300B (zh) * 2011-12-29 2013-11-27 方正国际软件有限公司 图片文档的处理方法及装置
JP5794154B2 (ja) 2012-01-23 2015-10-14 富士通株式会社 画像処理プログラム、画像処理方法、及び画像処理装置
US9251580B2 (en) * 2013-08-23 2016-02-02 Cimpress Schweiz Gmbh Methods and systems for automated selection of regions of an image for secondary finishing and generation of mask image of same
CN103885712B (zh) * 2014-03-21 2017-08-15 小米科技有限责任公司 网页调整方法、装置及电子设备
CN104951741A (zh) * 2014-03-31 2015-09-30 阿里巴巴集团控股有限公司 一种文字识别方法及装置
US20190065589A1 (en) 2016-03-25 2019-02-28 Quad Analytix Llc Systems and methods for multi-modal automated categorization
CN110334706B (zh) * 2017-06-30 2021-06-01 清华大学深圳研究生院 一种图像目标识别方法及装置
CN107748888B (zh) * 2017-10-13 2019-11-08 众安信息技术服务有限公司 一种图像文本行检测方法及装置
CN109711508B (zh) * 2017-10-25 2020-06-05 北京京东尚科信息技术有限公司 图像处理方法和装置
CN108446697B (zh) * 2018-03-06 2019-11-12 平安科技(深圳)有限公司 图片处理方法、电子装置及存储介质
CN109002842A (zh) * 2018-06-27 2018-12-14 北京字节跳动网络技术有限公司 图像识别方法和装置
CN109325201A (zh) * 2018-08-15 2019-02-12 北京百度网讯科技有限公司 实体关系数据的生成方法、装置、设备及存储介质
CN109951654B (zh) * 2019-03-06 2022-02-15 腾讯科技(深圳)有限公司 一种视频合成的方法、模型训练的方法以及相关装置
CN110555839A (zh) * 2019-09-06 2019-12-10 腾讯云计算(北京)有限责任公司 缺陷检测识别方法、装置、计算机设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130061132A1 (en) * 2010-05-19 2013-03-07 Li-Wei Zheng System and method for web page segmentation using adaptive threshold computation
US20130283148A1 (en) * 2010-10-26 2013-10-24 Suk Hwan Lim Extraction of Content from a Web Page

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230075006A (ko) 2021-11-22 2023-05-31 주식회사 신세계아이앤씨 상품 배너 자동 제작 및 관리 가능한 배너제작관리시스템

Also Published As

Publication number Publication date
EP3828766A2 (en) 2021-06-02
CN113538450B (zh) 2023-07-21
EP3828766A3 (en) 2021-10-06
CN113538450A (zh) 2021-10-22
US11810333B2 (en) 2023-11-07
US20210264614A1 (en) 2021-08-26
JP7213291B2 (ja) 2023-01-26
JP2021152901A (ja) 2021-09-30
KR102648760B1 (ko) 2024-03-15

Similar Documents

Publication Publication Date Title
KR102648760B1 (ko) 이미지 생성 방법 및 장치
CN111709878B (zh) 人脸超分辨率实现方法、装置、电子设备及存储介质
US20220270289A1 (en) Method and apparatus for detecting vehicle pose
KR102463891B1 (ko) 포지셔닝 방법, 포지셔닝 장치 및 전자 기기
US20210312121A1 (en) Annotation tool generation method, annotation method, electronic device and storage medium
CN111767853B (zh) 车道线检测方法和装置
WO2022227768A1 (zh) 动态手势识别方法、装置、设备以及存储介质
CN103914876A (zh) 用于在3d地图上显示视频的方法和设备
CN114550177A (zh) 图像处理的方法、文本识别方法及装置
US11641446B2 (en) Method for video frame interpolation, and electronic device
CN114003160B (zh) 数据可视化展示方法、装置、计算机设备和存储介质
CN112101386B (zh) 文本检测方法、装置、计算机设备和存储介质
KR20210047282A (ko) 무배경 이미지의 생성 방법, 장치, 기기 및 매체
CN111191619B (zh) 车道线虚线段的检测方法、装置、设备和可读存储介质
US20210334985A1 (en) Method and apparatus for tracking target
CN112541934B (zh) 一种图像处理方法及装置
CN113256484A (zh) 一种对图像进行风格化处理的方法及装置
CN112465692A (zh) 图像处理方法、装置、设备及存储介质
CN111899181A (zh) 去除图像中的阴影的方法和装置
US20230119741A1 (en) Picture annotation method, apparatus, electronic device, and storage medium
JP7315639B2 (ja) 紙のデータのデジタル化方法及び装置、電子機器、記憶媒体
CN111626919B (zh) 图像合成方法、装置、电子设备及计算机可读存储介质
JP7269979B2 (ja) 歩行者を検出するための方法及び装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム
CN112419145B (zh) 一种图像数据处理方法、装置、设备及存储介质
CN111368794B (zh) 障碍物检测方法、装置、设备和介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant