WO2019112145A1 - Method, device, and system for sharing photographs on basis of voice recognition - Google Patents

Method, device, and system for sharing photographs on basis of voice recognition Download PDF

Info

Publication number
WO2019112145A1
WO2019112145A1 PCT/KR2018/009228 KR2018009228W WO2019112145A1 WO 2019112145 A1 WO2019112145 A1 WO 2019112145A1 KR 2018009228 W KR2018009228 W KR 2018009228W WO 2019112145 A1 WO2019112145 A1 WO 2019112145A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
image
voice data
voice
information
Prior art date
Application number
PCT/KR2018/009228
Other languages
French (fr)
Korean (ko)
Inventor
이석희
Original Assignee
라이브픽쳐스(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 라이브픽쳐스(주) filed Critical 라이브픽쳐스(주)
Publication of WO2019112145A1 publication Critical patent/WO2019112145A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/002Specific input/output arrangements not covered by G06F3/01 - G06F3/16
    • G06F3/005Input arrangements through a video camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/92Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/92Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N5/9201Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving the multiplexing of an additional signal and the video signal
    • H04N5/9202Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving the multiplexing of an additional signal and the video signal the additional signal being a sound signal

Abstract

According to one aspect of the present invention, disclosed is a method for sharing photographs on the basis of voice recognition. The method comprises the steps of: taking a photograph through a camera so as to acquire an image of the taken photograph; acquiring voice data related with the acquired image; recognizing the acquired voice data so as to generate text; linking the acquired image, the acquired voice data, and the generated text and storing the same; and outputting the stored image together with the stored voice data and/or the stored text.

Description

음성인식 기반의 사진 공유 방법, 장치 및 시스템Speech recognition based photo sharing method, apparatus and system
본 발명은 사진 공유방법에 관한 것으로, 보다 상세하게는, 사진 콘텐츠에 재미요소 및 편의요소를 가미하여 다수의 사용자가 즐거운 경험으로 느끼면서 편리하게 사진콘텐츠를 공유할 수 있는 방법에 관한 것이다.The present invention relates to a method for sharing a picture, and more particularly, to a method for sharing a picture content conveniently with a fun factor and a convenience factor added to the picture content to allow a large number of users to enjoy the experience.
종래의 아날로그 카메라는 빛을 이용하여 촬상한 이미지를 기록하고, 현상 및 인화하는 과정을 거친 후에 촬상한 이미지를 볼 수 있다.Conventional analog cameras can view an image captured after an image captured using light is developed, developed and printed.
하지만 최근 전자기술 특히 광학기술의 발달로 인하여 카메라에 있어 새로운 종류의 디지털 기기들이 대량으로 출현하였고, 종래의 카메라뿐만 아니라 카메라 기능이 포함되어 있는 스마트폰에서의 카메라 성능도 상당히 향상되어 새로운 개념으로 발전하고 있다.Recently, however, due to the development of electronic technology, especially optical technology, new types of digital devices have appeared in large quantities, and camera performance in smart phones including camera functions has been improved not only in conventional cameras but also in new concepts .
따라서 이러한 스마트폰의 카메라나 디지털 카메라는 사진을 촬영한 후, 복잡한 인화 및 현상을 수행하는 과정을 거치는 것이 아니라 화면을 카메라 또는 스마트폰에 내장된 디지털 저장매체에 저장하고, 카메라나 스마트폰에 부착된 모니터를 이용하여 출력함으로써, 손쉽게 촬영한 영상을 확인할 수 있다. 또한, 디지털 카메라는 종래의 카메라와 스캐너의 역할을 대체할 수 있고, PC의 화상데이터와 호환성이 높아 편집 및 수정을 간편하게 할 수 있다는 장점을 갖는다. 그러나 이러한 디지털 카메라는 시간이 지난 후에 영상의 촬영장소, 촬영시의 느낌 및 동행인 등과 같이 촬영한 시점의 정지된 영상뿐만 아니라 해당 영상을 촬영하는 구체적 상황 및 분위기 등 함께 다양한 기억을 촬영된 영상만으로 남겨야 할 수 밖에 없는 문제점을 갖는다.Therefore, such a camera or a digital camera of a smartphone does not go through a process of complicated printing and development after taking a photograph but stores the screen in a digital storage medium embedded in a camera or a smart phone and attaches it to a camera or a smart phone So that it is possible to easily confirm the photographed image. In addition, the digital camera has a merit that it can replace the role of a conventional camera and a scanner, and has high compatibility with image data of a PC, thereby facilitating editing and correction. However, after time passes, such a digital camera must not only stop the image at the time of photographing such as the place where the image is taken, the feeling at the time of photographing, and the companion, but also various memories including the specific situation and atmosphere There is a problem that must be done.
스마트폰은 기능적으로 점점 더 다양하게 발전하고 있으며, 특히 사진이나 동영상을 촬영하는데 있어 영상의 해상도의 증가와 보정기능 등 다양한 소비자의 요구에 맞추어 점점 더 기능이 높아지고 있다. 하지만 여전히 종래의 스마트폰이나 디지털 카메라와 같은 동일한 문제점을 갖는다.Smartphones are becoming more and more diverse in terms of functionality, and are increasingly becoming more and more functional in meeting the needs of a variety of consumers, such as increasing the resolution and correction of images in photographing and moving pictures. However, it still has the same problems as conventional smart phones and digital cameras.
이러함 문제점을 개선하고자 카메라나 스마트폰을 이용하여 촬영한 영상에 텍스트와 같은 추가적인 정보를 입력하는 기술들이 개발되고 있다. 종래의 등록특허번호 제10-1053045호 영상물의 정보 입력 시스템은 카메라를 포함하는 촬상장치에 저장된 사진 또는 동영상 정보에 사용자 또는 사용자 단말로부터 제공된 텍스트, 음성 또는 이미지 정보를 유/무선으로 입력하도록 한다.In order to solve this problem, technologies for inputting additional information such as texts to images photographed using a camera or a smart phone are being developed. In the conventional information input system of the registered patent No. 10-1053045, text, voice or image information provided from a user or a user terminal is inputted to the photograph or moving picture information stored in an image capturing apparatus including a camera.
하지만 상기의 영상물의 정보 입력 시스템은 해당 사진 또는 동영상 정보에 제공된 텍스트, 음성 또는 새로운 이미지 정보를 별도의 유/무선으로 입력하여야 하므로 비용상의 상승을 가져오고, 이미 생성된 사진과 제공되는 텍스트, 음성, 새로운 이미지의 연계방법에 대한 한계점을 내포하고 있다.However, since the above-mentioned video information input system requires a separate text or voice information or new image information provided to the corresponding picture or moving picture information, it is costly to increase the cost, , And limitations on how to link new images.
종래의 등록번호 제10-1115701호 음성 인식 기술을 이용하여 생성된 메타데이터로 영상 콘텐츠에 주석을 달기 위한 방법 및 장치는 표시 장치상에 영상 콘텐츠를 렌더링하여 시작되며, 음성의 세그먼트가 사용자로부터 수신되어, 음성세그먼트는 현재 렌더링되는 영상 콘텐츠의 일부에 주석을 달고, 음성 세그먼트는 텍스트 세그먼트로 변환되고, 텍스트 세그먼트는 영상 콘텐츠의 렌더링된 부분과 연관된다. 텍스트 세그먼트는 선택적으로 검색가능한 방식으로 저장되어, 영상 콘텐츠의 렌더링된 부분과 연관되도록 한다.A method and apparatus for annotating video content with metadata generated using conventional registration number 10-1115701 voice recognition technology begins by rendering video content on a display device, The voice segment annotates a portion of the image content that is currently rendered, the voice segment is converted to a text segment, and the text segment is associated with the rendered portion of the image content. The text segment is stored in an optionally searchable manner to be associated with the rendered portion of the image content.
이와 같은 종래기술은 음성인식을 통해 음성을 인식하고, 인식된 음성을 문자텍스트 변환하여 디지털 사진에 부가하는 기술을 제안하고 있으나, 단순히 인식된 음성을 텍스트로 변환하여 사진에 부가하는 기술이어서 다수 인원이 음성을 발화하고 있는 상황에서 음성인식 오류가 발생되어 제 기능을 수행하지 못하는 문제점이 있었다.Such a conventional technique has proposed a technique of recognizing a voice through speech recognition and converting the recognized voice into a text text and adding it to a digital picture. However, a technique of simply converting a recognized voice into a text and adding it to a picture, A voice recognition error occurs in a state in which the voice is uttered, so that the voice recognition function can not be performed.
상술한 문제점을 해결하기 위한 본 발명의 일 양태에 따른 목적은 음성인식을 이용하여 텍스트를 생성하고, 생성된 텍스트를 이미지에 삽입하여 텍스트 및/또는 음성을 이미지와 함께 출력하는 음성인식 기반의 사진 공유 방법, 장치 및 시스템을 제공하는 것이다. According to an aspect of the present invention, there is provided a method of generating a text based on speech recognition, a method of generating a text based on a speech recognition based on a text and / Sharing method, apparatus, and system.
본 발명의 다른 양태에 따른 목적은 블록체인을 이용하여 사진을 공유하는 방법, 장치 및 시스템을 제공하는 것이다.An object according to another aspect of the present invention is to provide a method, an apparatus and a system for sharing a photograph using a block chain.
상기한 목적을 달성하기 위한 본 발명의 일 양태에 따른 음성인식 기반의 사진 공유 방법은, 카메라를 통해 사진을 촬영함에 따라 촬영된 사진에 대한 이미지를 획득하는 단계, 상기 획득된 이미지와 연관된 음성데이터를 획득하는 단계, 상기 획득된 음성데이터를 인식하여 텍스트를 생성하는 단계, 상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트를 연관시켜 저장하는 단계 및 상기 저장된 이미지를, 상기 저장된 음성데이터 및 상기 저장된 텍스트 중 적어도 하나와 함께 출력하는 단계를 포함할 수 있다.According to an aspect of the present invention, there is provided a method of sharing a voice recognition-based picture, the method comprising: acquiring an image of a photographed image by photographing the photographed image through a camera; Recognizing the acquired voice data to generate text, associating and storing the obtained image, the obtained voice data and the generated text, and storing the stored image in the stored voice data And outputting at least one of the stored texts.
상기 획득된 이미지는 현재 촬영되는 사진 및 현재시점 이전의 시점에 촬영되어 기저장된 사진 중 적어도 하나로부터 획득될 수 있다.The acquired image may be obtained from at least one of a photograph currently taken and a photograph previously taken at a time before the present time and previously stored.
상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트를 연관시켜 저장하는 단계는, 상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트와 연관된 정보를 서버에 저장하는 단계를 포함할 수 있다.The step of associating and storing the obtained image, the obtained voice data and the generated text includes storing the acquired image, the acquired voice data, and information associated with the generated text in a server .
상기 서버에 저장된 데이터를 검색할 때, 상기 음성데이터 및 상기 텍스트 중 적어도 하나를 기반으로 검색할 수 있다.When retrieving the data stored in the server, it is possible to search based on at least one of the voice data and the text.
상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트를 연관시켜 저장하는 단계는, 상기 텍스트를 상기 이미지에 삽입하는 단계를 포함하되, 상기 텍스트는 상기 이미지와 동일한 제 1 계층 또는 상기 이미지와 서로 다른 제 2 계층으로 삽입될 수 있다.Wherein the step of associating and storing the acquired image, the obtained speech data, and the generated text includes inserting the text into the image, wherein the text includes a first layer, And can be inserted into different second layers.
상기 텍스트의 상기 제 1 계층으로의 삽입은 상기 텍스트를 상기 이미지 상의 임의의 영역에 삽입하는 단계, 상기 텍스트가 삽입된 제 1 영역을 식별하는 단계 및 상기 텍스트가 삽입된 이미지를 이미지 파일로 생성하는 단계를 포함하되, 상기 이미지 파일은 상기 제 1 영역에 대한 식별정보와 연관될 수 있다.Inserting the text into the first hierarchy includes inserting the text into an arbitrary area on the image, identifying a first area in which the text is inserted, and generating an image in which the text is embedded as an image file Wherein the image file is associated with identification information for the first area.
상기 텍스트가 삽입된 이미지를 이미지 파일로 생성하는 단계는 상기 텍스트가 삽입된 이미지를 스캔하여 이미지 파일로 생성하는 단계를 포함할 수 있다.The step of generating an image in which the text is inserted as an image file may include a step of scanning the inserted image to generate an image file.
상기 텍스트가 상기 제 1 계층으로 삽입될 때, 상기 식별된 제 1 영역에 대한 사용자 입력에 대응하여 상기 저장된 음성데이터가 출력될 수 있다.When the text is inserted into the first layer, the stored voice data may be output corresponding to a user input for the identified first area.
상기 텍스트가 상기 제 2 계층으로 삽입될 때, 상기 제 2 계층의 텍스트에 대한 사용자 입력에 대응하여 상기 저장된 음성데이터가 출력될 수 있다.When the text is inserted into the second layer, the stored speech data may be output corresponding to a user input for the second layer of text.
상기 저장되는 음성데이터는 상기 이미지 및 상기 텍스트와 함께 패키징되어 저장될 수 있다.The stored voice data may be packaged and stored with the image and the text.
상기 저장되는 음성데이터는 상기 별도의 저장소에 저장되고, 상기 이미지, 상기 텍스트는 상기 음성데이터의 저장소에 대한 링크 정보와 함께 패키징될 수 있다.The stored voice data may be stored in the separate storage, and the image, the text may be packaged with link information to a repository of the voice data.
상기 연관된 음성데이터는 사진촬영과 관련된 제 1 공간의 외부에 존재하는 촬영자와 연관된 음성데이터 및 상기 제 1 공간 내에 존재하는 피사체와 연관된 음성데이터 중 적어도 하나를 포함할 수 있다.The associated voice data may include at least one of voice data associated with a photographer present outside a first space associated with photographing and voice data associated with a subject present in the first space.
제 1 항에 있어서, 상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트를 연관시켜 저장하는 단계는, 상기 획득된 음성데이터 - 음성데이터는 제 1 음성특성을 갖는 제 1 음성데이터 및 제 2 음성특성을 갖는 제 2 음성데이터를 포함함 - 를 음성분석하여 상기 제 1 음성데이터와 상기 제 2 음성데이터로 분리하는 단계를 포함할 수 있다.2. The method of claim 1, wherein the step of associating and storing the obtained image, the obtained voice data, and the generated text comprises the steps of: obtaining the first voice data having the first voice characteristic; 2 audio data having a second audio characteristic, and separating the first audio data and the second audio data.
상기 분리된 제 1 음성데이터를 인식하여 제 1 텍스트를 생성하고, 상기 분리된 제 2 음성데이터를 인식하여 제 2 텍스트를 생성하되, 상기 제 1 텍스트 및 상기 제 2 텍스트는 각각 제 1 음성데이터와 상기 제 2 음성데이터와 연관시킬 수 있다.The first text and the second text are generated by recognizing the separated first voice data to generate a first text and recognizing the separated second voice data to generate a second text, The second voice data may be associated with the second voice data.
상기 제 1 텍스트는 사용자의 제 1 입력에 따른 상기 저장된 이미지 상의 위치에 배치되고, 상기 제 2 텍스트는 사용자의 제 2 입력에 따른 상기 저장된 이미지 상의 위치에 배치될 수 있다.The first text may be located at a location on the stored image according to a first input of a user and the second text may be located at a location on the stored image in accordance with a second input of a user.
상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트를 연관시켜 저장하는 단계는, 상기 이미지에 대해 객체인식 알고리즘을 적용하여 상기 이미지에 포함된 제 1 피사체 및 제 2 피사체를 각각 인식하는 단계, 상기 이미지에 포함된 제 1 피사체는 상기 제 1 텍스트와 연관시키는 단계 및 상기 이미지에 포함된 제 2 피사체는 상기 제 2 텍스트와 연관시키는 단계를 포함할 수 있다.The step of associating and storing the obtained image, the obtained voice data, and the generated text may include recognizing a first subject and a second subject included in the image by applying an object recognition algorithm to the image, , Associating a first subject included in the image with the first text, and associating a second subject included in the image with the second text.
상기 제 1 텍스트는 상기 제 1 피사체 주변에 배치되고, 상기 제 2 텍스트는 상기 제 2 피사체 주변에 배치될 수 있다.The first text may be disposed around the first subject, and the second text may be disposed around the second subject.
제 1 항에 있어서, 상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트를 연관시켜 저장하는 단계는, 상기 획득된 음성데이터와 연관된 음성특성정보를 음성 데이터베이스에 기저장된 음성특성정보와 비교하여 상기 음성데이터를 식별하는 단계를 포함할 수 있다.2. The method of claim 1, wherein associating and storing the obtained image, the obtained voice data, and the generated text further comprises: comparing voice characteristic information associated with the obtained voice data with voice characteristic information previously stored in a voice database And identifying the voice data.
상기 이미지의 영역 중, 기지정된 위치 및 이미지 분석 결과에 따른 위치 중 적어도 하나의 위치에 상기 텍스트가 자동으로 배치되는 제 1 모드 및 사용자 입력에 따라 상기 텍스트가 배치되는 제 2 모드 중 하나에 의해 상기 텍스트의 위치가 결정될 수 있다.A first mode in which the text is automatically arranged in at least one position among a position of the image and a position in accordance with the image analysis result, and a second mode in which the text is arranged according to a user input, The location of the text can be determined.
상기 음성인식 기반의 사진 공유 방법은 상기 텍스트의 의미를 분석하는 단계를 더 포함하고, 상기 제 1 모드로 동작할 때, 의미 분석된 결과에 대응되는 영역에 상기 텍스트가 자동으로 배치될 수 있다.The method may further include analyzing the meaning of the text, and when the first mode is operated, the text may be automatically arranged in an area corresponding to the semantic analysis result.
제 1 의미를 갖는 텍스트는 상기 이미지 내의 피사체와 연관된 영역에 배치되고, 제 2 의미를 갖는 텍스트는 상기 피사체와 관련없이 이미지 전체 영역 중 기설정된 어느 한 영역에 배치될 수 있다.The text having the first meaning may be placed in an area associated with the subject in the image and the text having the second meaning may be placed in any predetermined one of the entire image area regardless of the subject.
상기 저장된 이미지를 소셜 네트워크 서비스(SNS: Social Network Service)에 등록할 때, 상기 이미지, 상기 음성데이터, 상기 텍스트 및 상기 이미지와 연관된 메타데이터 중 적어도 하나를 기반으로 해시태그(hashtag)를 자동생성하여 등록할 수 있다.A hash tag is automatically generated based on at least one of the image, the voice data, the text, and metadata associated with the image when the stored image is registered in a social network service (SNS) You can register.
상기 저장된 이미지를 소셜 네트워크 서비스(SNS: Social Network Service)에 등록할 때, 상기 이미지 내의 제 1 객체를 추출하여 상기 제 1 객체에 대한 정보를 기반으로 해시태그(hashtag)를 자동생성하여 등록할 수 있다.When registering the stored image in a social network service (SNS), a hash tag (hashtag) is automatically generated and registered based on the information about the first object by extracting a first object in the image have.
상기 텍스트를 출력함에 있어서, 상기 텍스트를 구성하는 복수 개의 문자 간의 출력 순서, 상기 복수 개의 문자 각각에 포함된 복수 개의 획들 간의 출력 순서 및 상기 복수 개의 획 각각의 출력시점부터 출력종점까지의 드로잉(drawing)에 관한 정보를 기반으로, 상기 텍스트의 첫 문자부터 최종문자까지 받아쓰기의 형태로 상기 텍스트를 재생할 수 있다.And outputting the text, wherein the output order of the plurality of characters constituting the text, the output order of the plurality of strokes included in each of the plurality of characters, and the drawing order of the output of each of the plurality of strokes ), It is possible to reproduce the text in the form of a dictation from the first character to the last character of the text.
상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트를 연관시켜 저장하는 단계는, 상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트와 연관된 정보를 블록체인(blockchain)에 기록하는 단계를 포함할 수 있다.Wherein the step of associating and storing the obtained image, the obtained speech data and the generated text further comprises the steps of: recording the obtained image, the obtained speech data, and information associated with the generated text in a blockchain Step < / RTI >
상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트와 연관된 정보를 블록체인 형태로 기록하기 위한 요청이 있는 경우, 인증정보 발급 서버를 통해 공개키 및 개인키를 생성하여 블록체인기반 데이터 관리서버로 전송함으로써 블록체인 데이터 보유 서버로 상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트와 연관된 정보를 제공할 수 있다.If there is a request to record the obtained image, the obtained voice data, and the information associated with the generated text in a block chain form, a public key and a private key are generated through an authentication information issuing server, Server to the block-chain data holding server to provide the obtained image, the obtained voice data, and information associated with the generated text.
상기 공개키 및 개인키는 상기 블록체인기반 데이터 관리서버에서 등록 여부를 확인에 사용되고, 상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트와 연관된 정보는 해시값으로 가공되어 정보 기록을 위한 트랜잭션(transaction)으로 생성되며, 상기 생성된 트랜잭션은 상기 블록체인 보유 서버에게 전달되어 승인되도록 구성될 수 있다.Wherein the public key and the private key are used for confirmation in the block chain-based data management server, and the obtained image, the obtained voice data and the information associated with the generated text are processed into a hash value, Transaction generated, and the generated transaction may be configured to be delivered to and approved by the block chain holding server.
상기한 목적을 달성하기 위한 본 발명의 다른 양태에 따른 음성인식 기반의 사진 공유 장치는, 카메라를 통해 사진을 촬영함에 따라 촬영된 사진에 대한 이미지를 획득하고, 상기 획득된 이미지와 연관된 음성데이터를 획득하는 정보 획득부, 상기 획득된 음성데이터를 인식하여 텍스트를 생성하는 텍스트 변환부, 상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트를 연관시켜 저장하는 데이터 저장부 및 상기 저장된 이미지를 상기 저장된 음성데이터 및 상기 저장된 텍스트 중 적어도 하나와 함께 출력하는 데이터 출력부를 포함할 수 있다.According to another aspect of the present invention, there is provided a voice recognition-based photo sharing apparatus for acquiring an image of a photographed image by photographing a photograph through a camera, A text conversion unit for recognizing the obtained speech data and generating text, a data storing unit for storing the obtained image, the obtained speech data and the generated text in association with each other, And a data output unit for outputting the stored voice data together with at least one of the stored voice data and the stored text.
상기한 목적을 달성하기 위한 본 발명의 또 다른 양태에 따른 음성인식 기반의 사진 공유 시스템은 사진과 연관된 이미지, 및 상기 이미지와 연관된 음성데이터를 획득하며, 상기 획득된 음성데이터를 인식하여 텍스트를 생성하고, 상기 이미지, 상기 음성데이터 및 상기 텍스트를 연관시켜 저장하고 상기 저장된 이미지, 음성데이터 및 텍스트를 블록체인(block-chain) 형태로 기록하기 위해 요청하는 사용자 단말, 상기 사용자 단말에서 생성된 이미지, 음성데이터 및 텍스트를 블록체인 형태로 기록하는 복수 개의 블록체인 보유 서버들 및 상기 블록체인 보유 서버들에 기록된 블록체인 정보들에 대한 추가, 이전 및 삭제 중 적어도 하나를 포함하는 블록체인 관리 업무를, 상기 복수 개의 블록체인 보유 서버들의 승인에 기반하여 처리하는 블록체인기반 데이터 관리서버를 포함할 수 있다.According to another aspect of the present invention, there is provided a voice recognition based picture sharing system for acquiring an image associated with a photograph and voice data associated with the image, A user terminal for associating and storing the image, the voice data and the text and requesting to record the stored image, voice data and text in a block-chain form, A block chain management task including at least one of a plurality of block chain holding servers for recording voice data and text in a block chain form, and addition, transfer and deletion of block chain information recorded in the block chain holding servers , A block chain based on processing based on the acknowledgment of the plurality of block chain holding servers It may include data management server.
상기 블록체인 기반 데이터 관리서버는, 제 1 사용자 단말과 제 2 사용자 단말 간에 주고받은, 상기 이미지, 음성데이터 및 텍스트와 관련된 다운로드 정보 및 결제 정보 중 적어도 하나를 상기 블록체인 보유 서버들에 기록할 수 있다.The block chain-based data management server may record at least one of download information and payment information related to the image, voice data, and text, which are transmitted between the first user terminal and the second user terminal, in the block chain holding servers have.
상기 이미지, 음성데이터 및 텍스트의 블록체인 기록 요청이 있는 경우, 상기 사용자 단말은 인증정보 발급 서버를 통해 공개키 및 개인키를 생성하여 블록체인기반 데이터 관리서버로 전송하고, 상기 블록체인기반 데이터 관리서버는 상기 사용자 단말로부터 수신한 공개키 및 개인키의 등록 여부를 확인한 뒤, 상기 사용자 단말이 요청한 이미지, 음성데이터 및 텍스트를 해시값으로 가공하여 정보 기록을 위한 트랜잭션을 생성하고, 생성된 트랜잭션을 상기 블록체인 보유 서버들에게 전달하여 승인하도록 구성될 수 있다.The user terminal generates a public key and a private key through the authentication information issuing server and transmits the public key and the private key to the block chain based data management server, The server confirms whether or not the public key and the private key received from the user terminal are registered, generates a transaction for information recording by processing the image, voice data and text requested by the user terminal into a hash value, To the block-chain holding servers.
본 발명의 음성인식 기반의 사진 공유 방법, 장치 및 시스템에 따르면, 음성인식을 통해 실시간으로 사진에 정보를 부가하고 감정과 생명력을 이입하여 이를 이용하는 사용자로 하여금 재미요소와 편의요소를 함께 느낄 수 있도록 하는 효과가 있다.According to the voice recognition-based photo sharing method, apparatus, and system of the present invention, it is possible to add information to a photograph in real time through voice recognition, and to allow a user who uses emotion and vitality to feel the fun and convenience elements together .
도 1은 본 발명의 일 실시예에 따른 음성인식 기반의 사진 공유 방법을 개략적으로 설명하기 위한 개념도,FIG. 1 is a conceptual diagram for schematically explaining a method of sharing a photo based on speech recognition according to an embodiment of the present invention; FIG.
도 2는 본 발명의 일 실시예에 따른 음성인식 기반의 사진 공유 장치를 개략적으로 나타낸 블록도,FIG. 2 is a block diagram schematically illustrating a voice recognition-based photo sharing apparatus according to an embodiment of the present invention.
도 3은 본 발명의 일 실시예에 따른 음성인식 기반의 사진 공유 방법의 촬영자 음성과 피사체 음성을 구분하여 이미지에 삽입하는 방법을 개략적으로 나타낸 흐름도,FIG. 3 is a flowchart schematically illustrating a method of inserting a photographer's voice and a subject's voice in an image by distinguishing a voice of a photographer and a voice of a subject in a method of sharing photos based on speech recognition, according to an embodiment of the present invention.
도 4a 및 도 4b는 텍스트가 이미지에 삽입되는 방식을 설명하기 위한 개념도,4A and 4B are conceptual diagrams for explaining how the text is inserted into the image,
도 5a 및 도 5b는 이미지, 텍스트 및 음성의 저장방법을 예시적으로 설명하기 위한 개념도,5A and 5B are conceptual diagrams for explaining a method of storing images, texts and voices,
도 6은 음성인식된 텍스트 데이터를 피사체와 연관시켜 이미지 내에 삽입하는 구성을 나타낸 블록도,6 is a block diagram showing a configuration in which speech-recognized text data is inserted into an image in association with a subject;
도 7은 서로 다른 음성특성을 갖는 피사체의 음성 데이터를 이미지 내의 특정 피사체와 매칭시키는 방법을 설명하기 위한 개념도,7 is a conceptual diagram for explaining a method of matching voice data of a subject having different voice characteristics with a specific subject in the image,
도 8a 및 도 8b는 자동모드 및 수동모드에 따라 텍스트가 이미지 내에 임의의 위치에 배치되는 과정을 설명하기 위한 개념도,8A and 8B are conceptual diagrams illustrating a process in which text is arranged at an arbitrary position in an image according to an automatic mode and a manual mode,
도 9는 인식된 텍스트의 의미에 따라 삽입위치를 결정하기 위한 구성을 구체적으로 나타낸 블록도,9 is a block diagram specifically illustrating a structure for determining an insertion position according to the meaning of the recognized text,
도 10는 해쉬태그의 자동 생성을 설명하기 위한 개념도,10 is a conceptual diagram for explaining automatic generation of a hash tag,
도 11은 감성적인 텍스트 드로잉을 설명하기 위한 개념도,11 is a conceptual diagram for explaining an emotional text drawing,
도 12는 본 발명의 일 실시예에 따른 블록체인을 기반으로 데이터를 저장하는 시스템을 나타낸 블록도, 12 is a block diagram illustrating a system for storing data based on a block chain according to an embodiment of the present invention.
도 13은 본 발명의 일 실시예에 따른 블록체인을 기반의 데이터를 저장 방법을 설명하기 위한 흐름도이다.13 is a flowchart illustrating a method of storing data based on a block chain according to an embodiment of the present invention.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.While the invention is susceptible to various modifications and alternative forms, specific embodiments thereof are shown by way of example in the drawings and will herein be described in detail.
그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.It should be understood, however, that the invention is not intended to be limited to the particular embodiments, but includes all modifications, equivalents, and alternatives falling within the spirit and scope of the invention.
제 1, 제 2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제 1 구성요소는 제 2 구성요소로 명명될 수 있고, 유사하게 제 2 구성요소도 제 1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.The terms first, second, etc. may be used to describe various components, but the components should not be limited by the terms. The terms are used only for the purpose of distinguishing one component from another. For example, without departing from the scope of the present invention, the first component may be referred to as a second component, and similarly, the second component may also be referred to as a first component. And / or < / RTI > includes any combination of a plurality of related listed items or any of a plurality of related listed items.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. It is to be understood that when an element is referred to as being "connected" or "connected" to another element, it may be directly connected or connected to the other element, . On the other hand, when an element is referred to as being "directly connected" or "directly connected" to another element, it should be understood that there are no other elements in between.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terminology used in this application is used only to describe a specific embodiment and is not intended to limit the invention. The singular expressions include plural expressions unless the context clearly dictates otherwise. In the present application, the terms "comprises" or "having" and the like are used to specify that there is a feature, a number, a step, an operation, an element, a component or a combination thereof described in the specification, But do not preclude the presence or addition of one or more other features, integers, steps, operations, elements, components, or combinations thereof.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless defined otherwise, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs. Terms such as those defined in commonly used dictionaries should be interpreted as having a meaning consistent with the meaning in the context of the relevant art and are to be interpreted in an ideal or overly formal sense unless explicitly defined in the present application Do not.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다. Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. In order to facilitate the understanding of the present invention, the same reference numerals are used for the same constituent elements in the drawings and redundant explanations for the same constituent elements are omitted.
도 1은 본 발명의 일 실시예에 따른 음성인식 기반의 사진 공유 방법을 개략적으로 설명하기 위한 개념도이다. 1 is a conceptual diagram for schematically explaining a method of sharing a photo based on speech recognition according to an embodiment of the present invention.
도 1의 좌측 상단 도면을 참조하면, 본 발명의 일 실시예에 따른 사진 공유 장치는 카메라(camera)와 같은 촬영수단을 포함한다. 장치는 사진촬영을 통해 이미지 정보를 획득할 수 있다. 장치는 마이크(microphone)와 같은 음성획득수단을 포함한다. 장치는 사진촬영시 발생된 음성과 연관된 데이터를 획득할 수 있고, 획득된 음성데이터를 적어도 하나의 음성인식 알고리즘을 이용하여 인식한 후, 인식된 정보를 텍스트로 변환한다. 상기 음성과 연관된 데이터는 사진촬영 이후에 기저장된 사진을 인출하여 볼 때, 입력된 음성을 포함할 수 있다. 음성인식 후, 음성데이터는 버려지는 것이 아니라 이미지, 텍스트 정보와 연관되어 저장된다. 예컨대, 생성된 텍스트를 클릭하거나 터치하는 등의 사용자 입력이 발생했을 때, 텍스트와 연관되어 저장된 음성이 재생될 수 있도록 이미지와 텍스트, 텍스트와 음성, 및/또는 이미지와 음성 간의 매칭관계를 정의한다. 다만, 반드시 텍스트만 클릭했을 때, 음성이 재생되는 것은 아니다. 이미지의 일영역을 클릭했을 때, 음성이 재생될 수 있다.1, the photo sharing apparatus according to an embodiment of the present invention includes photographing means such as a camera. The apparatus can acquire image information through photographing. The apparatus includes voice acquisition means such as a microphone. The apparatus can acquire data associated with the voice generated at the time of photographing, recognize the acquired voice data using at least one voice recognition algorithm, and convert the recognized information into text. The data associated with the voice may include the input voice when viewing and viewing the pre-stored picture after taking the picture. After speech recognition, the speech data is not discarded but stored in association with the image and text information. For example, a matching relationship between an image and text, text and voice, and / or image and voice is defined so that the voice stored in association with the text can be reproduced when user input such as clicking or touching the generated text occurs . However, when text is clicked only, voice is not reproduced. When one area of the image is clicked, the audio can be reproduced.
도 1의 우측 상단 도면을 참조하면, 변환된 텍스트는 이미지의 일 영역에 배삽입된다. 텍스트가 삽입되는 위치는 사용자의 입력을 통해 수동으로 결정될 수도 있지만, 자동으로 일 영역에 배치될 수도 있다. 특히, 음성인식된 텍스트의 의미분석을 통해 의미분석결과와 연관된 위치에 배치되도록 할 수 있다. 예컨대, "사랑해"와 같이 둘 이상의 피사체를 연결하는 의미를 갖는 단어는 두 피사체의 사이의 공간에 배치되도록 미리 텍스트의 삽입위치를 정의하고 있을 수 있다. 또는, "xx" 및 "yy"와 같은 사람의 이름을 나타내는 단어가 하나의 피사체를 포함하는 이미지와 연관되는 경우, 해당 피사체의 주변에 배치되도록 할 수 있다. 즉, 의미분석 결과와 이미지 내의 피사체의 수, 또는 피사체들 간의 관계, 피사체들의 객체분석 결과(사물인지 인물인지와 연관된 정보를 포함함) 중 적어도 하나에 기반하여 텍스트의 위치가 결정될 수 있다. 이와 같이, 이미지와 텍스트를 합성하고 나면, 연관된 이미지는 텍스트 및/또는 음성과 함께 출력될 수 있다. 예컨대, 사진을 클릭하면 음성이 재생되도록 할 수 있다. 타 단말에서 다운받은 경우에도, 마찬가지다. Referring to the upper right figure of Fig. 1, the converted text is embedded in one area of the image. The location at which the text is inserted may be manually determined through the user's input, but may be automatically placed in one area. In particular, the semantic analysis of the speech-recognized text can be arranged at a position associated with the semantic analysis result. For example, a word having a meaning of connecting two or more subjects, such as "I love you ", may be defined in advance to be placed in a space between two subjects. Alternatively, when a word representing a person's name such as "xx" and "yy " is associated with an image containing a single subject, it may be arranged around the subject. That is, the location of the text may be determined based on at least one of the semantic analysis result and the number of objects in the image, or the relationship between the objects, and the object analysis result of the objects (including information related to whether the object is a person or person). Thus, after composing the image and text, the associated image may be output with text and / or audio. For example, when a photograph is clicked, a voice can be reproduced. The same is true of downloading from another terminal.
또한, 도 1의 하단 도면을 참조하면, 장치는 이미지, 텍스트 및 음성 데이터를 패키징하여 저장할 수 있고, 이때, 블로그, 카페와 같은 전형적인 SNS(Social Network Service) 및/또는 블록체인(blockchain)에 저장하여 다수의 사용자와 공유할 수 있다. 이와 같은 방식으로 공유채널을 통해 공유된 데이터는 이미지와 연관된 메타데이터(예컨대, 사진촬영 일시, 장소, 촬영 디바이스 정보 등), 음성데이터 및/또는 텍스트 데이터를 기반으로 검색이 가능하다. 예컨대, "서울"과 같은 촬영장소 기반의 검색뿐만 아니라, "사랑해"와 같이 음성인식을 기반으로 생성된 텍스트를 통해서도 해당 텍스트를 포함하는 이미지를 검색할 수 있다. 1, the device may package and store image, text, and voice data and store it in a typical social network service (SNS) such as a blog, a cafe, and / or a blockchain And can be shared with a large number of users. Data shared through the shared channel in this manner can be searched based on metadata (e.g., photographing date and time, location, photographing device information, etc.) associated with the image, voice data, and / or text data. For example, not only a search based on a photographing place such as "Seoul ", but also an image including the text can be searched through text generated based on speech recognition such as" I love you.
본 발명의 실시예에 있어서, 장치는, 카메라와 마이크와 같이, 사진 촬영 및 음성획득이 가능하면서, 통신이 가능한 디바이스를 포함한다. 또한, 음성인식 알고리즘을 직접 실행하거나, 외부의 음성인식 알고리즘을 활용하여 음성인식된 정보를 획득가능한 디바이스를 포함한다. 본 발명의 일 실시예에 따른 장치는, 이동국(MS), 사용자 장비(UE; User Equipment), 사용자 터미널(UT; User Terminal), 무선 터미널, 액세스 터미널(AT), 터미널, 고정 또는 이동 가입자 유닛(Subscriber Unit), 가입자 스테이션(SS; Subscriber Station), 셀룰러 전화, 무선 기기(wireless device), 무선 통신 디바이스, 무선송수신유닛(WTRU; Wireless Transmit/Receive Unit), 이동 노드, 모바일, 모바일국, 개인 휴대 정보 단말(personal digital assistant; PDA), 스마트폰, 랩톱, 넷북, 개인용 컴퓨터, 무선 센서, 소비자 전자기기(CE) 또는 다른 용어들로서 지칭될 수 있다. 장치의 다양한 실시예들은 셀룰러 전화기, 무선 통신 기능을 가지는 스마트 폰, 무선 통신 기능을 가지는 개인 휴대용 단말기(PDA), 무선 모뎀, 무선 통신 기능을 가지는 휴대용 컴퓨터, 무선 통신 기능을 가지는 디지털 카메라와 같은 촬영장치, 무선 통신 기능을 가지는 게이밍 장치, 무선 통신 기능을 가지는 영상/음악 저장 및 재생 가전제품, 무선 인터넷 접속 및 브라우징이 가능한 인터넷 가전제품뿐만 아니라 그러한 기능들의 조합들을 통합하고 있는 휴대형 유닛 또는 단말기들을 포함할 수 있으나, 이에 한정되는 것은 아니다. In an embodiment of the present invention, the device includes a device capable of communicating, such as a camera and a microphone, capable of photographing and audio acquisition. The apparatus also includes a device capable of directly executing a speech recognition algorithm or acquiring voice-recognized information using an external speech recognition algorithm. An apparatus according to an embodiment of the present invention includes at least one of a mobile station (MS), a user equipment (UE), a user terminal (UT), a wireless terminal, an access terminal (AT) Such as a Subscriber Unit, a Subscriber Station (SS), a cellular telephone, a wireless device, a wireless communication device, a Wireless Transmit / Receive Unit (WTRU), a mobile node, May be referred to as a personal digital assistant (PDA), a smart phone, a laptop, a netbook, a personal computer, a wireless sensor, a consumer electronics (CE) Various embodiments of the apparatus may be used in various applications such as cellular telephones, smart phones with wireless communication capabilities, personal digital assistants (PDAs) with wireless communication capabilities, wireless modems, portable computers with wireless communication capabilities, Devices, gaming devices with wireless communication capabilities, video / music storage and playback appliances with wireless communication capabilities, Internet appliances capable of wireless Internet access and browsing, as well as portable units or terminals incorporating combinations of such features But is not limited thereto.
도 2는 본 발명의 일 실시예에 따른 음성인식 기반의 사진 공유 장치를 개략적으로 나타낸 블록도이다. 도 2에 도시된 바와 같이, 본 발명의 일 실시예에 따른 사진공유 장치(200)는 정보획득부(210), 음성분리부(220), 텍스트 변환부(230), 이미지 합성부(240), 데이터 저장부(250) 및 데이터 출력부(260)를 포함할 수 있다. 2 is a block diagram schematically illustrating a voice recognition-based photo sharing apparatus according to an exemplary embodiment of the present invention. 2, the photo sharing apparatus 200 includes an information obtaining unit 210, a voice separating unit 220, a text converting unit 230, an image combining unit 240, A data storage unit 250, and a data output unit 260.
각각의 구성요소는 장치 내에 실장되는 하드웨어로써 구현가능하며, 음성분리부(220), 텍스트 변환부(230), 이미지 합성부(240)는 각각의 기능을 수행하는 하나의 마이크로프로세서(microprocessor) 또는 둘 이상의 마이크로프로세서의 조합으로 구현될 수 있고, 각 기능을 수행하도록 하는 명령어를 실행한다. 상기 명령어는 메모리(미도시)에 저장되어 있을 수 있다.Each of the components may be embodied as hardware mounted in the apparatus. The voice separating unit 220, the text converting unit 230, and the image synthesizing unit 240 may be implemented as a microprocessor or a microprocessor It may be implemented as a combination of two or more microprocessors, and executes an instruction to perform each function. The instruction may be stored in a memory (not shown).
도 2를 참조하면, 정보획득부(210)는 카메라 및 마이크를 포함할 수 있다. 카메라를 사진촬영 애플리케이션을 실행하여 동작할 수 있다. 카메라는 피사체를 촬영하여 이미지를 획득한다. 카메라는 광학 관련 정보를 생성 및 제공할 수 있다. 이는 피사체와의 거리를 계산하는데 사용될 수 있다. 정보획득부(210)는 현재 카메라를 실행하여 획득되는 이미지뿐만 아니라, 로컬 스토리지(미도시)에 기저장된 이미지를 가져와서 이미지를 획득할 수 있다. 이때, 기저장된 이미지와 연관된 음성이 이미 존재하는 상황도 있을 수 있으나, 그렇지 않고 이미지만 저장된 파일을 가져올 수 있다. 정보획득부(210)는 사용자의 입력에 의해 파일을 가져오면서 사용자에 의해 입력되는 음성을 마이크를 통해 획득함으로써 기저장된 이미지와 현재 입력되는 음성을 입력받을 수 있다. 마이크는 음성신호를 획득하는 구성요소이다. 카메라와 마이크는 장치 내에 실장될 수도 있고, 별도 인터페이스를 통해 장치와 연결된 형태로 제공될 수도 있다. 정보획득부(210)에서 획득된 정보 중 이미지는 이미지 합성부(240)로 제공되고, 음성데이터는 음성분리부(220)로 제공될 수 있다. Referring to FIG. 2, the information obtaining unit 210 may include a camera and a microphone. The camera can be operated by running a photo shooting application. The camera captures an image of the subject. The camera can generate and provide optically related information. This can be used to calculate the distance to the subject. The information obtaining unit 210 may obtain an image by fetching an image previously stored in a local storage (not shown) as well as an image obtained by executing a current camera. At this time, there may be a case where the voice associated with the pre-stored image already exists, but the file storing only the image can be fetched. The information obtaining unit 210 can receive a pre-stored image and a currently input voice by acquiring a voice inputted by a user while fetching a file by a user's input through a microphone. The microphone is a component that acquires a voice signal. The camera and the microphone may be mounted in the apparatus, or may be provided in a form connected to the apparatus via a separate interface. The image of the information obtained by the information obtaining unit 210 may be provided to the image combining unit 240 and the voice data may be provided to the voice separating unit 220.
음성분리부(220)는 마이크를 통해 획득된 음성을 분석하여 적어도 하나의 음성신호로 분리한다. 우선, 필터(미도시)를 통해 사람의 음성을 필터링한다. 입력되는 음성신호에는 다수의 노이즈가 끼여있을 수 있으므로, 노이즈를 필터링함으로써 사람의 음성만을 추출한다. 그리고, 추출된 사람의 음성신호를 음성의 주파수 및/또는 음성의 세기를 이용하여 적어도 하나의 사람의 음성신호로 생성한다. 음성분리부(220)는 1차 필터링된 신호가 어떤 주파수 성분을 가지고 있는가를 분석하여 음성특성 정보를 획득한다. 음성신호는 시간영역에서의 파형의 변동이 큰데, 주파수 스펙트럼의 형은 비교적 변동이 작고, 음성을 특징짓는 포맨트 등의 정보를 추출하기 용이하다. 특히, 복수 개의 주파수 성분이 혼재되어 있는 경우, 음성분리부(220)는 이를 분석하여 개별 주파수 성분을 추출한 후, 복수 개의 음성신호를 생성한다. 예컨대, 음성특성이 다른 두 개의 신호가 혼합된 경우, 제 1 음성신호와 제 2 음성신호를 분리하여 텍스트 변환부(230)로 제공할 수 있다. 또한, 부가적인 음성신호 분석을 수행하여 연관된 음성신호 데이터베이스(미도시)와 비교한 후, 기 저장된 음성신호 특성과 매칭되는 음성신호를 추출할 수 있다. 매칭된 음성신호에는 식별정보가 부가될 수 있다. 이러한 부가적인 음성신호 분석은 이미지 합성부(240)에서 이루어져도 무방하다. 음성분리부(220)에서의 신호분석 겨로가는 이미지 합성부(240)로 제공된다. 음성분리부(220)는 사진촬영시 촬영영역에 포함되는 피사체의 음성과 그렇지 않은 음성(예컨대, 촬영자 등 제3자)을 분리할 수 있다. 이는 다음의 도 3을 통해 보다 상세히 설명한다. The voice separation unit 220 analyzes the voice acquired through the microphone and separates the voice into at least one voice signal. First, a human voice is filtered through a filter (not shown). Since a large number of noise may be contained in the input voice signal, only the voice of a person is extracted by filtering the noise. Then, the voice signal of the extracted person is generated as a voice signal of at least one person by using the frequency of the voice and / or the strength of the voice. The speech separator 220 analyzes the frequency components of the first-order filtered signal to obtain speech characteristic information. The waveform of the speech signal fluctuates widely in the time domain, and the type of the frequency spectrum is comparatively small, and it is easy to extract information such as a property that characterizes the speech. In particular, when a plurality of frequency components are mixed, the speech separator 220 analyzes the extracted frequency components, extracts individual frequency components, and generates a plurality of speech signals. For example, when two signals having different voice characteristics are mixed, the first and second voice signals may be separated and provided to the text conversion unit 230. In addition, additional voice signal analysis may be performed to compare with the associated voice signal database (not shown), and voice signals matched with pre-stored voice signal characteristics may be extracted. Identification information may be added to the matched voice signal. The additional voice signal analysis may be performed by the image combining unit 240. And is provided to the image synthesizing unit 240 for analyzing the signal in the speech separating unit 220. The voice separating unit 220 can separate the voice of the subject included in the photographing area from the voice (e.g., a third person such as a photographer) when photographing. This will be described in more detail below with reference to FIG.
도 3은 본 발명의 일 실시예에 따른 음성인식 기반의 사진 공유 방법의 촬영자 음성과 피사체 음성을 구분하여 이미지에 삽입하는 방법을 개략적으로 나타낸 흐름도이다. FIG. 3 is a flowchart schematically illustrating a method of inserting a photographer's voice and a subject's voice in an image by distinguishing a voice of a photographer and a voice of a subject in the method of sharing photos based on speech recognition according to an embodiment of the present invention.
도 3을 참조하면, 음성분리부는, 전술한 바와 같이, 음성신호에 포함된 주파수 성분을 통해 복수 개의 음성신호를 분리할 수 있고, 분리된 음성신호와 관련된 정보를 획득한다(S310). 하나의 사람의 음성신호라면 굳이 음성분리는 필요없을 수 있다. 그리고는, 장치는 분리된 음성신호 각각의 세기 및/또는 영상촬영 관련 정보를 기반으로 촬영자와 피사체를 구분할 수 있다(S320). 장치는 음성신호의 세기 및 기타 음성특성정보를 통해 해당 분리된 음성신호가 얼마나 멀리서 장치까지 도달했는지 판단할 수 있다. 또한, 영상촬영 관련 정보는 피사체의 크기 및 카메라의 줌인/줌아웃 정보를 포함할 수 있다. 이를 통해, 카메라의 광학계가 피사체를 어느정도 당기거나 밀어서 촬영하는지 판단할 수 있고, 광학관련 정보와 피사체의 크기를 이미지 분석하여 얼마나 피사체가 떨어져있는지 파악할 수 있다. 위의 과정을 통해 분리된 각각의 음성신호를 기반으로 산출된 제 1 거리와 피사체의 크기분석 결과 및/또는 카메라의 광학 관련 정보를 기반으로 산출된 제 2 거리를 비교하여 피사체까지의 제 2 거리로부터 일정영역(기설정된 제 1 기준값으로 영역을 규정할 수 있음) 내에 제 1 거리가 포함되는지를 판단하여 피사체의 음성인지 그렇지 않은 음성인지 파악한다. 그리고, 제 1 거리가 장치로부터 제 2 기준값 내에 있는지 여부를 통해 장치로부터 근접한 위치에서 입력되는 촬영자의 음성을 구분할 수도 있다. 피사체의 음성도, 촬영자의 음성도 아닌 경우는 노이즈로 취급되거나 별도의 알고리즘을 통해 다른 취급을 받도록 제어할 수 있다. Referring to FIG. 3, the speech separator can separate a plurality of speech signals through a frequency component included in the speech signal, as described above, and acquires information related to the separated speech signal (S310). If one person's voice signal, voice separation may not be necessary. Then, the apparatus can distinguish the photographer from the subject based on the intensity of each of the separated voice signals and / or information related to the image capturing (S320). The device can determine how far the separated voice signal has reached the device through the strength of the voice signal and other voice characteristic information. In addition, the image capturing related information may include the size of the subject and zoom in / out information of the camera. Through this, it is possible to determine whether the optical system of the camera pulls or pushes the subject to some degree, and the image related to the optical information and the size of the subject can be analyzed to determine how far the subject is located. The first distance calculated based on the separated voice signals and the second distance calculated based on the result of size analysis of the subject and / or the optical information related to the camera are compared with each other, It is determined whether the first distance is included in a predetermined area (the area can be defined by a predetermined first reference value), and whether the sound is a sound of the subject or not is determined. And, whether the first distance is within the second reference value from the device or not can be distinguished from the voice of the photographer input at a position close from the device. When the sound of the subject is neither the sound of the photographer nor the sound of the photographer, it can be treated as noise or can be controlled to receive different treatments through a separate algorithm.
위의 과정을 통해 촬영자 및/또는 피사체의 음성으로 구분이 되면, 각각의 음성은 텍스트 변환부에서 텍스트로 변환될 수 있다(S330). 이때, 변환된 텍스트에는 각각 촬영자의 음성에 따른 텍스트라는 것 그리고/또는 피사체의 음성에 따른 텍스트라는 것을 식별하기 위한 식별정보(또는 음성신호와의 연관성을 나타내기 위한 "연관정보"라고 부를 수 있음)가 부여될 수 있다. 그리고는, 식별정보가 부여된 각각의 텍스트를 이미지에 삽입할 수 있다(S340). 이때, 식별정보를 기반으로 각각의 텍스트는 서로 다른 취급을 받아 이미지에 삽입될 수 있다. 예컨대, 촬영자 텍스트는 이미지의 전체영역의 중앙에, 피사체 텍스트는 이미지 내의 피사체 주변에 삽입되도록 제어할 수 있다. 또는 편집방법을 달리 할 수 있다.If the voice is divided into the voice of the photographer and / or the subject through the above process, each voice may be converted into text in the text converter (S330). At this time, the converted text may be referred to as " text corresponding to the voice of the photographer " and / or identification information for identifying the text based on the voice of the subject (or "association information" ) Can be given. Then, each text to which the identification information is assigned can be inserted into the image (S340). At this time, based on the identification information, each of the texts can be handled differently and inserted into the image. For example, the photographer text can be controlled to be centered on the entire area of the image, and the subject text can be inserted around the subject in the image. Or the editing method may be different.
다시 도 2로 돌아가서, 텍스트 변환부(230)는 음성분리부(220)에서 분리된 적어도 하나의 음성신호를 텍스트로 각각 변환한다. 두 개의 음성신호로 분리된 경우, 제 1 음성신호는 제 1 텍스트로, 제 2 음성신호는 제 2 텍스트로 변환한다. 이때, 제 1 음성신호는 촬영자의 것일 수 있고, 제 2 음성신호는 피사체의 것일 수 있다. 또는, 제 1 음성신호는 피사체 1의 것, 제 2 음성신호는 피사체 2의 것일 수도 있다. 텍스트 변환부(230)는 음성인식 알고리즘을 이용하여 분리된 음성신호를 텍스트로 변환한다. 본 발명의 일 실시예에 따른 음성인식 알고리즘은 음성분리부(220)에서 분리된 음성신호 각각으로부터 언어적 의미 내용을 식별하는 알고리즘을 포함한다. 보다 구체적으로, 음성 파형을 분석하여 단어나 단어열을 식별하고 의미를 추출하는 처리 과정을 포함하고, 이는, 크게 음성 분석, 음소 인식, 단어 인식, 문장 해석, 의미 추출의 과정을 포함한다. 음성인식 알고리즘을 처리하는 텍스트 변환부(230)는 음성인식수단 및 음성합성수단을 대규모 집적 회로(LSI)를 이용하여 수 mm 크기 집적 회로로 실현될 수 있다. 본 발명의 일 실시예에 따른 음성인식 알고리즘은 자연스러운 발성에 의한 음성을 인식하여 텍스트로 완전히 변환하는 음성/텍스트 변환(full speech-to-text conversion)을 구현하기 위해, 의미분석 알고리즘와 연동할 수 있다. 이는 단어를 인식할 뿐 아니라 구문 정보(문법), 의미 정보, 작업에 관련된 정보와 지식 등을 이용하여 연속 음성 또는 문장의 의미 내용을 정확하게 추출하는 음성 이해 시스템(speech understanding system)과 연관되는 것을 의미한다. 이는 이하 도 9를 참조하여 보다 상세히 설명한다.Returning to FIG. 2, the text conversion unit 230 converts at least one speech signal separated by the speech separation unit 220 into text. When separated into two audio signals, the first audio signal is converted into a first text and the second audio signal is converted into a second text. At this time, the first audio signal may be of the photographer, and the second audio signal may be of the subject. Alternatively, the first audio signal may be that of the subject 1, and the second audio signal may be of the subject 2. The text conversion unit 230 converts the separated speech signal into text using a speech recognition algorithm. The speech recognition algorithm according to an embodiment of the present invention includes an algorithm for identifying the linguistic semantic content from each of the speech signals separated by the speech separator 220. More specifically, it includes a process of analyzing a voice waveform to identify a word or a word sequence and extracting a meaning, and it largely includes a process of voice analysis, phoneme recognition, word recognition, sentence analysis, and semantic extraction. The text conversion unit 230 for processing the speech recognition algorithm can be realized as a multi-mm size integrated circuit using a large-scale integrated circuit (LSI) for speech recognition means and speech synthesis means. The speech recognition algorithm according to an embodiment of the present invention can interoperate with a semantic analysis algorithm to realize a full speech-to-text conversion that recognizes a voice due to natural voicing and completely converts the voice into text . This means that it is associated with a speech understanding system that not only recognizes words but also extracts the meaning of consecutive speech or sentences accurately using syntax information (grammar), semantic information, information and knowledge related to the task do. This will be described in more detail below with reference to FIG.
상기와 같은 본 발명의 일 실시예에 따른 음성인식 알고리즘은 장치 내에서 실행될 수도 있고, 경우에 따라서는, 텍스트 변환부(230)는 서버(290) 또는 별도의 장치로 분리된 음성신호를 제공하고, 해당 서버(290) 또는 상기 별도의 장치에서 음성인식이 이루어진 후, 음성인식된 텍스트 정보를 획득할 수 있다. 텍스트 변환부(230)는 분리된 음성신호 각각을 통해 변환된 텍스트 정보에 식별정보를 부여하여 어느 음성신호에 매칭되는 텍스트인지 확인이 가능하게 만들 수 있다. The speech recognition algorithm according to an embodiment of the present invention as described above may be executed in the apparatus, and in some cases, the text conversion unit 230 may provide a speech signal separated into the server 290 or a separate device , The voice recognition text information may be obtained after speech recognition is performed in the server 290 or the separate device. The text conversion unit 230 may provide identification information to the text information converted through each of the separated speech signals to make it possible to check which text is matched with which speech signal.
이미지 합성부(240)는 카메라를 통해 촬영된 이미지와 텍스트 변환부(230)에서 변환된 텍스트 정보를 합성한다. 이때, 합성의 기반이 되는 이미지는, 앞서 설명한 바와 같이, 현재 촬영 중인 이미지뿐만 아니라 기저장된 이미지 또는 타 장치로부터 수신되어 획득된 이미지를 포함할 수 있다. 이미지 합성부(240)는 이미지와 텍스트 변환부(230)에서 변환된 텍스트를 합성하여 하나의 파일로 생성한다. 이때, 이미지 내에 텍스트가 삽입되는 방법은 다양하다. 텍스트는 음성신호 분석을 통해 피사체와 연관된 텍스트인지 촬영자와 연관된 텍스트인지 구분될 수 있고, 이러한 구분에 따라 서로 다른 위치에 삽입될 수 있다. 또한, 복수의 피사체가 존재하는 이미지의 경우, 서로 다른 피사체와 연관된 텍스트는 각각 연관된 피사체의 주변에 배치되도록 할 수 있다. The image synthesizer 240 synthesizes the image photographed by the camera with the text information converted by the text converter 230. At this time, the image on which compositing is based may include an image that is received and acquired from a previously stored image or another apparatus as well as an image currently being captured, as described above. The image synthesis unit 240 synthesizes the text converted by the image and text conversion unit 230 and generates a single file. At this time, there are various ways in which text is inserted in the image. The text can be distinguished from the text associated with the subject or the text associated with the photographer through voice signal analysis, and can be inserted at different positions according to the distinction. Further, in the case of an image in which a plurality of subjects exist, text associated with different subjects may be arranged around the respective associated objects, respectively.
도 4a 및 도 4b는 텍스트가 이미지에 삽입되는 방식을 설명하기 위한 개념도이다. 4A and 4B are conceptual diagrams for explaining how text is inserted into an image.
도 4a를 참조하면, 장치는, 이미지와 동일한 레이어에 텍스트가 삽입되는 형태로 이미지와 텍스트를 삽입할 수 있다. 이때, 이미지는 PNG, JPG, PDF, GIF 및/또는 TIFF 포맷의 파일 중 적어도 하나를 포함할 수 있다. 다만, 반드시 상기 확장자의 파일로 이미지가 한정되는 것은 아니다. 이미지 합성부(240)는 텍스트와의 합성에 적합한 포맷으로 파일 형태를 변환할 수 있다. 또한, 이때 삽입되는 텍스트는 이미지와 동일한 제 1 레이어에 삽입될 수 있다. 이미지 합성부(240)는 텍스트를 이미지 형태로 생성한 후, 동일 레이어에 상기 이미지 형태의 텍스트를 삽입할 수 있다. 또는, 이미지 상에 텍스트를 텍스트 특성을 살려 그대로 배치한 후, 스캐닝을 통해 이미지화함으로써 동일 레이어의 이미지로 생성할 수 있다. 이와 같이 생성된 이미지는 단일 포맷의 파일로써, JPG, PNG, PDF 등의 파일로 생성될 수 있다. 이때, 이미지화된 텍스트가 배치된 영역 정보를 생성하여 해당 영역에 대한 사용자의 입력에 텍스트가 반응할 수 있도록 한다. 텍스트의 반응은 연관된 음성정보를 끌고 와서 출력하는 방식이 될 수 있다. 예컨대, "사랑해"가 존재하는 영역(410)에 사용자 입력이 있는 경우, 해당 영역(410)의 사용자 입력을 검출하여 텍스트와 연관된 음성을 출력하도록 할 수 있다. Referring to FIG. 4A, the apparatus may insert an image and text in a form that text is inserted in the same layer as the image. At this time, the image may include at least one of PNG, JPG, PDF, GIF and / or TIFF format files. However, the image is not necessarily limited to the file of the extension. The image synthesizing unit 240 can convert the file format into a format suitable for synthesis with text. At this time, the inserted text may be inserted in the same first layer as the image. The image composing unit 240 may generate text in an image format and then insert the image format text in the same layer. Alternatively, the text may be placed on the image in the same manner as the text by using the text property, and then scanned to form an image of the same layer. The image thus generated can be a file in a single format and can be generated as a file such as JPG, PNG, or PDF. At this time, the area information in which the imaged text is arranged is generated, so that the text can be reacted to the user's input to the corresponding area. The response of the text can be a way of dragging and outputting the associated voice information. For example, if there is a user input in the area 410 where "I love you" exists, the user input of the area 410 may be detected to output a voice associated with the text.
도 4b를 참조하면, 이미지 합성부(240)는 이미지 파일이 존재하는 레이어를 제 1 레이어라고 가정할 때, 텍스트는 이와는 다른 제 2 레이어로 삽입되어 제 1 레이어와 제 2 레이어가 중첩되는 형태로 이미지와 텍스트가 합성되도록 할 수 있다. 이에, 텍스트가 존재하는 제 2 레이어는 제 1 레이어와 별개로 제어될 수 있고, 사용자 입력에도 제 2 레이어의 텍스트의 배치 영역(420)은 독립적으로 반응할 수 있다. 즉, 텍스트가 실제 배치된 영역(420)의 좌표에 대한 사용자 입력을 검출하여 텍스트와 연관된 음성이 출력되도록 반응할 수 있다.Referring to FIG. 4B, when the image composing unit 240 assumes that a layer in which an image file exists is a first layer, the text is inserted into a second layer different from the first layer, and the first layer and the second layer are superimposed Images and text can be combined. Accordingly, the second layer in which the text exists can be controlled separately from the first layer, and the placement region 420 of the second layer text can be independently reacted to the user input. That is, a user input to the coordinates of the area 420 where the text is actually placed may be detected to react to output the voice associated with the text.
추가적으로, 이와 같이 생성된 이미지와 텍스트는 분리되어 저장될 수도 있다. 분리저장시, 이미지와 텍스트는 동일 포맷(예컨대, PNG 포맷)으로 분리되어 저장될 수도 있고, 서로 다른 포맷(예컨대, PNG와 JPG 포맷)으로 분리되어 저장될 수 있다. Additionally, the image and text thus generated may be stored separately. In separate storage, the images and text may be stored separately in the same format (e.g., PNG format) or may be stored separately in different formats (e.g., PNG and JPG formats).
본 발명의 실시예에 따르면, 텍스트는 사용자 설정에 의해 다양한 폰트, 컬러, 크기 등으로 편집되어 삽입될 수 있다. 특히, 피사체 및/또는 촬영자와의 연관정보를 통해 서로 다른 폰트, 컬러 및 크기로 삽입될 수 있다. 예컨대, 피사체와 연관된 텍스트는 12의 크기를 갖고 궁서체로 삽입되도록 하고, 촬영자와 연관된 텍스트는 15의 크기를 가지며, 고딕체로 삽입되도록 할 수 있다. According to the embodiment of the present invention, the text can be edited and inserted into various fonts, colors, sizes, and the like by user setting. In particular, it can be inserted in different fonts, colors, and sizes through association with the subject and / or the photographer. For example, the text associated with the subject may have a size of 12 and be inserted into the paladin, and the text associated with the photographer may have a size of 15 and be inserted into the Gothic font.
다시 도 2로 돌아가서, 데이터 저장부(250)는 이미지, 음성 및 텍스트 정보를 저장한다. 앞서 설명한 바와 같이, 이미지와 텍스트는 하나의 이미지로 저장될 수도 있고, 서로 분리된 형태로 저장될 수도 있다. 데이터의 저장과 관련된 부분은 도 5a 및 도 5b를 통해 보다 상세히 설명한다.2, the data storage unit 250 stores image, voice, and text information. As described above, the image and the text may be stored as one image, or may be stored separately from each other. The portions related to the storage of data are described in more detail in FIGS. 5A and 5B.
도 5a 및 도 5b는 이미지, 텍스트 및 음성의 저장방법을 예시적으로 설명하기 위한 개념도이다. 5A and 5B are conceptual diagrams for explaining a method for storing images, texts, and voices illustratively.
도 5a를 참조하면, 데이터 저장부는 이미지, 텍스트, 음성 및 메타데이터를 패키징하여 하나의 파일(510)로 저장할 수 있다. 이때, 음성은 복수 개의 음성데이터를 포함할 수 있고, 음성특성이 서로 다른 복수 개의 음성데이터는 구분되어 저장될 수 있다. 메타데이터는 촬영일시, 촬영장소, 촬영디바이스, 촬영 관련 애플리케이션 정보를 포함할 수 있다. Referring to FIG. 5A, the data storage unit may store image, text, voice, and metadata as one file 510. At this time, the voice may include a plurality of voice data, and a plurality of voice data having different voice characteristics may be separately stored. The metadata may include a shooting date and time, a shooting location, a shooting device, and photographing-related application information.
앞서 도 4a 및 도 4b에서 설명한 바와 같이, 본 발명의 실시예에 따르면, 이미지와 텍스트는 하나의 이미지 파일로 저장될 수도 있고, 서로 다른 파일로 저장될 수 있도 있다. 이에 따라, 하나의 파일로 한번에 출력될 수 있고, 서로 다른 파일로 순차적으로 출력될 수도 있다. 다만, 하나의 이미지 파일에 저장된다고 하더라도 텍스트와 연관된 정보는 메타데이터로써 별도로 기록될 수 있다. 예컨대, 기록되는 정보는, 텍스트 내용 및 텍스트와 연관된 음성을 지시하는 연관정보 등이 텍스트의 메타데이터로써 저장되고, 이를 기반으로 검색 및 해시태그 생성 등이 이루어질 수 있다. As described above with reference to FIGS. 4A and 4B, according to the embodiment of the present invention, images and texts may be stored in one image file or in different files. Accordingly, they can be output to one file at a time, and sequentially output to different files. However, even if it is stored in one image file, the information associated with the text may be separately recorded as metadata. For example, the information to be recorded may be stored as metadata of the text, and related information indicating a voice associated with the text, and search and hashtag generation may be performed based on the stored metadata.
도 5b를 참조하면, 데이터 저장부는 이미지, 텍스트 및 메타데이터를 패키징하여 하나의 파일(520)로 저장하고, 음성데이터는 별도의 저장소(530)(로컬 스토리지 및/또는 장치외부 서버의 데이터베이스)에 저장하며, 메타데이터에 음성데이터로의 링크 정보를 저장하고 있게 할 수 있다. Referring to FIG. 5B, the data storage unit packages the image, text, and metadata into one file 520, and the voice data is stored in a separate storage 530 (a database of a local storage and / or a server external to the apparatus) And store the link information to the voice data in the meta data.
텍스트 정보는 복수 개의 분리된 음성데이터에 매칭되는 복수 개의 텍스트를 포함할 수 있다. 도 5b의 실시예에서, 텍스트는 제 1 텍스트와 제 2 텍스트를 포함하고, 이는 각각 제 1 음성데이터에 대한 링크정보와 제 2 음성데이터에 대한 링크정보에 매칭된다. 이와 같은 저장방식을 통해, 제 1 텍스트에 대한 사용자 입력에 반응하여 제 1 음성데이터 링크정보가 인출되고, 인출된 링크정보를 기반으로 음성 정보가 저장된 저장소(530)를 찾아다 해당 음성이 출력되도록 할 수 있다. 음성데이터에 대한 링크정보만 패키징되기 때문에 패키징된 파일의 무게는 도 5a의 실시예에 비해 가볍다.The text information may include a plurality of texts matched to a plurality of separate voice data. In the embodiment of FIG. 5B, the text includes a first text and a second text, each of which is matched to link information for the first speech data and link information for the second speech data. Through such a storage method, the first voice data link information is extracted in response to the user input of the first text, the storage 530 storing the voice information is retrieved based on the retrieved link information, can do. Since only the link information for the voice data is packaged, the weight of the packaged file is light compared with the embodiment of FIG. 5A.
다시 도 2로 돌아가서, 이와 같이 데이터 저장부(250)는 이미지, 텍스트 및 음성데이터를 장치 내에 저장할 수 있고, 저장된 데이터는 서버(290)와 공유할 수 있다. 서버(290)는 SNS를 관리하는 서버를 포함할 수 있다. 본 발명의 일 실시예에 따라 저장된 이미지, 텍스트 및/또는 음성 패키지 데이터는 서버(290)를 통해 인터넷 상의 특정 웹페이지를 이용하여 타 단말(295-1~295-N)과 공유될 수 있다. 장치(200)는 서버(290)를 이용하여 특정 웹페이지에 저장된 데이터를 업로드할 수 있고, 해당 웹페이지에 방문하는 단말들(295-1~295-N)로 업로드된 데이터를 제공할 수 있다. 단말들(295-1~295-N)은 사용자 입력을 통해 업로드된 데이터의 이미지에 포함된 텍스트 및/또는 그와 연관된 음성을 출력할 수 있다. 반대로, 단말들(295-1~295-N)에서 업로드한 데이터의 이미지에 포함된 텍스트 및/또는 그와 연관된 음성 정보를 수신하여 데이터 저장부(250)에 저장할 수 있다. 2, the data store 250 may store image, text, and voice data in the device, and the stored data may be shared with the server 290. The server 290 may include a server for managing the SNS. The stored image, text, and / or audio package data may be shared with other terminals 295-1 through 295-N using a particular web page on the Internet via the server 290 according to an embodiment of the present invention. The device 200 can upload data stored in a specific web page using the server 290 and provide the uploaded data to the terminals 295-1 through 295-N visiting the web page . The terminals 295-1 through 295-N may output the text contained in the image of the uploaded data through the user input and / or the audio associated therewith. Conversely, the terminal 295-1 through 295-N may receive the text and / or audio information associated with the image of the uploaded data and store the received text and / or audio information in the data storage unit 250.
데이터 출력부(260)는 모니터, 터치패널, TV 스크린과 같은 디스플레이 수단 및 스피커 및 이어폰과 같은 음향출력수단을 포함할 수 있다. 데이터 출력부(260)는 이미지, 이미지와 텍스트 및/또는 그와 연관된 음성정보를 출력한다. 데이터 출력부(260)는 터치스크린, 마우스, 키보드 등과 같은 사용자 인터페이스(미도시)를 통한 사용자 입력에 대응하여 저장된 이미지 파일을 출력할 수 있고, 이때, 이미지 내에 텍스트를 포함시켜 출력할 수 있다. 또한, 이미지 및/또는 텍스트에 대한 사용자 입력이 있을 시, 텍스트와의 연관정보를 이용하여 연관된 음성데이터를 출력한다. The data output unit 260 may include display means such as a monitor, a touch panel, a TV screen, and sound output means such as a speaker and an earphone. The data output unit 260 outputs images, images and text and / or audio information associated therewith. The data output unit 260 may output an image file stored corresponding to a user input through a user interface (not shown) such as a touch screen, a mouse, a keyboard, etc., and may output text including the text in the image. In addition, when there is a user input for an image and / or a text, the associated voice data is output using association information with the text.
본 발명의 다른 실시예에 따르면, 상기 서버(290)는 블록체인과 연관된 서버를 포함한다. 이때, 서버(290)는 블록체인을 관리하는 서버로써 동작하고, 각각의 단말(295-1~295-N)은 블록체인 보유 서버로써 동작할 수 있다. 이는, 이하 도 12 및 도 13을 통해 보다 상세히 설명한다.According to another embodiment of the present invention, the server 290 includes a server associated with a block chain. At this time, the server 290 operates as a server that manages the block chain, and each of the terminals 295-1 through 295-N can operate as a block chain holding server. This will be described in more detail below with reference to FIGS. 12 and 13. FIG.
서버(290)는 다수의 단말(295-1~295-N)로부터 이미지, 텍스트 및/또는 음성데이터를 수신하여 저장할 수 있고, 단말(295-1~295-N)이 원하는 데이터를 반환할 수 있다. 이때, 이미지뿐만 아니라, 텍스트 및/또는 음성데이터를 통한 검색이 이루어지도록 할 수 있다. 특히, 텍스트와 음성데이터를 통한 검색의 경우, 광고를 위한 데이터가 배제될 수 있기 때문에, 일반적인 검색어를 통한 검색보다 유용하다. 즉, 텍스트와 음성데이터 항목에 대한 검색을 수행하여 해당 검색어가 텍스트 및 음성데이터로써 포함된 이미지만 검색되도록 할 수 있다. 항목에 대한 선택은 텍스트, 음성뿐만 아니라 이미지 내의 객체 또는 메타데이터(촬영일시, 장소 등)로 다양하게 이루어질 수 있고, 이를 통해 보다 컴팩트하게 저장된 데이터에 대한 검색이 이루어지도록 할 수 있다.The server 290 can receive and store image, text and / or voice data from a plurality of terminals 295-1 through 295-N and the terminals 295-1 through 295-N can return desired data have. At this time, it is possible to search not only the image but also text and / or voice data. Particularly, in the case of searching through text and voice data, since data for an advertisement can be excluded, it is more useful than a search through general search words. That is, the text and voice data items may be searched to search only the images containing the text and voice data. The selection of the item may be variously performed not only in text and voice but also in an object or metadata (shooting date and time, location, etc.) in the image, thereby enabling searching for more compact stored data.
도 6은 음성인식된 텍스트 데이터를 피사체와 연관시켜 이미지 내에 삽입하는 구성을 나타낸 블록도이다. 도 6에 도시된 바와 같이, 본 발명의 일 실시예에 따른 이미지 삽입을 위한 구성은 음성 획득부(610), 음성식별부(620), 객체식별부(630) 및 음성/이미지 매칭부(640)를 포함할 수 있다.6 is a block diagram showing a configuration in which speech-recognized text data is inserted into an image in association with a subject. 6, the configuration for image insertion according to an embodiment of the present invention includes a voice acquisition unit 610, a voice identification unit 620, an object identification unit 630, and a voice / image matching unit 640 ).
도 6을 참조하면, 음성획득부(610)는 음성분리부를 통해 구분된 제 1 음성데이터 및 제 2 음성데이터를 획득할 수 있다. 그리고는, 구분된 음성들을 음성 식별부(620)로 제공한다. Referring to FIG. 6, the voice acquiring unit 610 may acquire first voice data and second voice data separated through the voice separating unit. Then, the divided voice is provided to the voice identification unit 620.
음성식별부(620)는 분리된 음성의 주파수와 같은 음성특성을 기반으로 음성데이터베이스(625)에 저장된 음성특성 정보와 비교함으로써 특정 피사체의 음성 및/또는 촬영자의 음성으로 식별한다. 음성식별부(620)는 분리된 음성데이터에 대한 정보를 음성분리부로부터 수신하여 음성식별에 활용할 수 있다. The voice identification unit 620 identifies the voice of a specific subject and / or the voice of the photographer by comparing the voice characteristic information stored in the voice database 625 based on voice characteristics such as the frequency of the separated voice. The voice identification unit 620 can receive information on the separated voice data from the voice separation unit and use it for voice identification.
기본적으로, 음성식별부(620)에서의 음성 분석은 주파수 분석에 기반한다. 획득된 음성데이터에 대한 주파수 분석에 의해 주파수 스펙트럼이 얻어지기 때문에, 이는 스펙트럼 분석이라고도 한다. 음성을 언어음으로서 듣는 경우, 위상 스펙트럼의 차이는 영향이 없으므로 진폭만을 나타내는 파워 스펙트럼이 사용될 수 있다. 음성파형은, 비교적 짧은 시간(수십 ms에서 수백 ms) 구간에서는 거의 일정한 특성(준정상이라고 불림)을 나타내는데, 긴 시간 구간에서는 특성이 변화한다.Basically, the speech analysis in the speech identification unit 620 is based on frequency analysis. Since the frequency spectrum is obtained by the frequency analysis on the acquired voice data, this is also referred to as spectrum analysis. When the speech is heard as a linguistic note, the power spectrum that only shows amplitude can be used since the difference in the phase spectrum is not affected. The speech waveform exhibits almost constant characteristics (called quasi-normal) in a relatively short period (several tens of ms to several hundreds of milliseconds), and the characteristic changes in a long time interval.
따라서, 음성식별부(620)는 음성신호의 스펙트럼 분석에서는 준정상으로 볼 수 있는 단시간의 스펙트럼 분석을 수행하는 것이 바람직하다. 주파수분석 방법에는, 푸리에 변환에 의한 분석 외에, 중심주파수가 다른 복수 개의 대역 필터의 출력을 쓰는 필터 뱅크법 등을 활용할 수 있다. Therefore, it is preferable that the voice identification unit 620 performs a short-time spectral analysis that can be viewed as quasi-normal in the spectrum analysis of a voice signal. In addition to the analysis by the Fourier transform, the frequency analysis method may employ a filter bank method in which outputs of a plurality of band filters having different center frequencies are used.
음성식별부(620)에서의 음성특성 분석과 분석된 결과를 특정 인물과 매칭하는 과정은 도 7을 통해 보다 상세히 설명한다.The process of analyzing the voice characteristic in the voice identification unit 620 and matching the analyzed result with a specific person will be described in more detail with reference to FIG.
도 7은 서로 다른 음성특성을 갖는 피사체의 음성 데이터를 이미지 내의 특정 피사체와 매칭시키는 방법을 설명하기 위한 개념도이다. 7 is a conceptual diagram for explaining a method of matching voice data of a subject having different voice characteristics with a specific subject in the image.
도 7을 참조하면, 음성식별부로부터 획득된 제 1 음성데이터는 제 1 음성특성을 가질 수 있고, 제 2 음성데이터는 제 2 음성특성을 가질 수 있다. 그리고, 제 1 음성특성은 음성 데이터베이스에 저장된 인물 "A"와 대응되고, 제 2 음성특성은 음성 데이터베이스에 저장된 인물 "B"와 대응되는 것을 확인할 수 있다.Referring to FIG. 7, the first voice data obtained from the voice identification unit may have a first voice characteristic, and the second voice data may have a second voice characteristic. It can be confirmed that the first voice characteristic corresponds to the person "A " stored in the voice database and the second voice characteristic corresponds to the person" B "stored in the voice database.
즉, 음성 데이터베이스에는, 기본적으로, 장치의 사용자에 대한 음성특성 정보가 저장되어 있을 수 있다. 장치의 사용자는 촬영자일 가능성이 높기 때문에, 촬영자의 음성특성 정보는 기저장되어 있는 것이 바람직하다. 또한, 사진촬영에 자주 노출되는 장치의 사용자 주변인들에 대한 음성정보가 저장되어 있을 수 있다. 이는 카메라 애플리케이션의 음성특성 기록과 관련된 사용자설정 인터페이스를 이용하여 미리 저장할 수도 있다. 또는, 본 발명의 일 실시예에 따른 사진촬영 방식에 따라 사진촬영과 함께 음성을 입력한 후, 기저장된 음성특성과 매칭되는 결과가 없을 때, 입력된 음성에 대한 인물정보를 입력하도록 함으로써 음성특성과 대응되는 인물정보를 저장할 수 있다. 이때, 인물정보는 촬영자와 연관된 정보라는 것을 나타내는 지시정보를 포함한다. 이는 플래그(flag) 형태로 부여되어, "0"은 촬영자를, "1"은 촬영자 외의 인물(피사체 포함)을 나타내도록 할 수 있다. 또는, "0"은 촬영자를, "1"은 촬영자 외의 대응되는 특정 인물이 있을 때를, "2"는 대응되는 특정인물은 없되, 인물의 성별 및/또는 나이대는 구분이 가능할 때를, "3"은 인물관련 정보를 파악할 수 없을 때를 나타내도록 할 수 있다. 인물정보는 특정 인물의 이미지 정보를 포함하여 객체식별부에서 식별된 객체와 매칭되는데 사용되도록 한다. That is, the voice database may basically have voice characteristic information for the user of the apparatus stored therein. Since the user of the apparatus is highly likely to be a photographer, it is preferable that the voice characteristic information of the photographer is stored in advance. In addition, voice information about user's peripherals of a device frequently exposed to photographing may be stored. This may be pre-stored using a user-set interface associated with recording the voice characteristics of the camera application. Alternatively, after inputting a voice along with photographing in accordance with the photographing method according to an embodiment of the present invention, when there is no result matching the previously stored voice characteristic, the person information of the inputted voice is inputted, It is possible to store the corresponding person information. At this time, the person information includes direction information indicating that the information is associated with the photographer. This is given in the form of a flag such that "0" represents the photographer and "1" represents the person (including the subject) other than the photographer. Or " 2 "indicates a case where there is no corresponding person but the sex and / or age of the person can be distinguished," 0 "indicates the photographer," 1 "indicates when the corresponding person is other than the photographer, 3 "can indicate when the person-related information can not be grasped. The person information is used to match the object identified in the object identification section, including image information of a specific person.
이러한 음성특성정보 및 그에 대응되는 인물정보를 포함하는 음성데이터베이스는 장치 내의 로컬 스토리지로 구현될 수도 있고, 서버와 연동하는 대용량 데이터베이스로 구현될 수 있다. 특히, 서버와 연동하는 대용량 데이터베이스의 경우, 장치의 음성식별부가 음성특성정보를 추출하여 서버로 제공하고, 서버에서 그에 대응되는 인물과 관련된 정보를 획득함으로써 음성특성에 대응되는 인물정보를 획득할 수 있다. 음성 데이터베이스는 장치가 사진촬영에 계속 이용됨에 따라 보다 많은 음성특성 정보 및 그에 대응되는 인물정보를 쌓아나갈 수 있다. 또한, 서버는 다수의 단말로부터 음성특성 정보와 그에 대응되는 인물정보를 획득하기 때문에, 기하급수적으로 많은 양의 음성특성정보 및 그에 대응하는 인물정보를 획득할 수 있다. The voice database including the voice characteristic information and the corresponding person information may be implemented as a local storage in the apparatus or a large-capacity database interworking with the server. In particular, in the case of a large-capacity database interworking with a server, voice identification information of a device is extracted and provided to a server, and information related to a person corresponding thereto is obtained from the server, have. The voice database can accumulate more voice characteristic information and corresponding character information as the device is continuously used for photographing. In addition, since the server obtains the voice characteristic information and the corresponding person information from a plurality of terminals, it is possible to obtain a large amount of voice characteristic information and the corresponding person information in an exponential manner.
기저장된 특정인물에 대한 음성특성과 대응되는 음성특성을 갖는 음성데이터는 특정인물로 식별되어 음성데이터의 식별정보를 부여받게 된다. 이는 특정 인물과 연관된 식별정보로써 앞서 설명한 텍스트와의 연관정보와 구분되는 정보이다. The voice data having the voice characteristic corresponding to the voice characteristic of the specific person stored in advance is identified as a specific person and is given identification information of the voice data. This is identification information related to a specific person and is information distinguished from association information with the above-described text.
추가적으로, 음성식별부는 특정 인물과 매칭되는 음성데이터가 없는 경우, 입력된 음성이 남성의 음성인지, 여성의 음성인지, 어느 나이대의 음성인지 구분하는 알고리즘을 포함한다. 이는 남성 및 여성의 기본적인 음역대를 활용하는 방식, 및 특정 나이대의 사람이 갖는 기본적인 음역대를 활용하는 방식을 통해 이루어질 수 있다. 또한, 음성식별부 및/또는 음성식별부와 연동하는 서버에서의 음성식별을 위한 알고리즘은 실시간으로 쌓이는 음성특성 정보와 그에 대응되는 인물정보(해당 인물의 성별, 및 나이 정보를 포함함)를 훈련데이터 셋으로 생성하여 계속 기계학습(machine learning)될 수 있다. 이는 딥러닝 알고리즘을 기반으로 훈련된다. 이러한 과정을 통해 음성식별부가 음성데이터에 대해 부여하는 인물정보는 해당 음성의 성별, 나이대 정보를 더 포함할 수 있는 것이다. In addition, the voice identification unit includes an algorithm for distinguishing whether the input voice is male voice, female voice, or voice of a certain age when there is no voice data matching a specific person. This can be done by using the basic range of the male and female, and by using the basic range of the people of a certain age. In addition, an algorithm for voice identification in a server in cooperation with a voice identification unit and / or a voice identification unit may be implemented by training voice characteristic information accumulated in real time and corresponding character information (including sex and age information of the person) Can be generated as a dataset and continue to be machine-learned. It is trained based on a deep-running algorithm. The person information given to the voice data by the voice identification unit through the above process may further include the sex and age information of the voice.
다시 도 6으로 돌아가서, 음성식별부(620)에서, 특정 음성데이터에 대한 인물정보를 획득하고 나면, 객체식별부(630)는 객체인식 알고리즘을 이용하여 이미지 내에 존재하는 객체들에 대한 분석을 수행한다. 기본적으로는, 이미지 내에 존재하는 피사체 중 인물과 관련된 부분을 집중적으로 분석한다. 객체식별부(630)는 객체 데이터베이스(635)와 연동한다. 객체 데이터베이스(635)도 장치 내의 로컬 스토리지 및/또는 서버와 연동하는 대용량 데이터베이스로 구현될 수 있다.Referring back to FIG. 6, after the person identification information for specific voice data is obtained in the voice identification unit 620, the object identification unit 630 analyzes the objects existing in the image using the object recognition algorithm do. Basically, it intensively analyzes the part of the subject existing in the image related to the person. The object identification unit 630 interfaces with the object database 635. The object database 635 may also be implemented as a large-capacity database that interfaces with local storage and / or servers within the device.
객체 데이터베이스(635)는 특정 인물 및 특정 피사체와 연관된 이미지 정보와 그에 대응되는 인물 및 사물정보를 저장하고 있다. 예컨대, 인물 "A"의 이미지(얼굴, 팔, 다리 등 얼굴외 다른 부위도 포함될 수 있음), 및 인물 "A"와 연관된 정보, 예컨대, 성별, 나이, 주소 등을 매칭하여 저장하고 있을 수 있다. 즉, 획득된 이미지 내에 포함된 피사체를 객체분석하여 객체 데이터베이스 내에 포함된 이미지와 대조하고, 대응되는 이미지가 있으면, 그에 대응되는 인물정보를 획득한다. 또는, 사물객체의 경우, 인물이 아닌 사물객체(예컨대, 건물, 다리 등)의 이미지와 그에 대응되는 정보를 가지고 있을 수 있다. 이러한 정보는 사진촬영에 따라 계속하여 축적될 수 있다. The object database 635 stores image information associated with a specific person and a specific object, and corresponding person and object information. For example, the image of the person "A " (which may include other parts such as face, arm, and leg) may be stored and information related to the person" A ", such as sex, . That is, the object included in the acquired image is analyzed by the object and collated with the image included in the object database, and if there is a corresponding image, the corresponding person information is acquired. Alternatively, in the case of an object object, it may have an image of a non-person object (e.g., a building, a leg, etc.) and information corresponding thereto. Such information can be accumulated continuously according to photographing.
객체 데이터베이스(635)와 음성 데이터베이스(625)는 연동될 수 있다. 즉, 동일 인물에 대한 인물정보(이미지 정보, 음성정보 및/또는 인물/사물 정보)를 공유하여 함께 쌓아나갈 수 있다. 또는, 하나의 데이터베이스로 구현될 수 있다.The object database 635 and the voice database 625 can be interlocked. That is, the person information (image information, audio information, and / or person / object information) for the same person can be shared and stacked together. Alternatively, it can be implemented as a single database.
음성/이미지 매칭부(640)는 객체식별부(630)로부터 피사체의 인물 및/또는 사물 정보를 획득하고, 음성식별부(620)로부터 음성데이터 식별을 통해 획득된 인물정보를 획득하여 양 정보를 비교한다. 비교결과, 동일인물로 판단될 시에는, 음성데이터를 해당 피사체와 연관시킨다.The voice / image matching unit 640 acquires the person and / or object information of the object from the object identification unit 630, acquires the person information obtained through voice data identification from the voice identification unit 620, Compare. As a result of the comparison, when it is judged to be the same person, the voice data is associated with the corresponding subject.
연관시킨 결과, 특정 음성데이터와 연관된 텍스트를 텍스트 변환부로부터 텍스트-음성 연관정보(제 1 연관정보)를 기반으로 획득하여 획득된 텍스트를 연관된 피사체의 주변에 배치할 수 있다(음성-이미지 연관정보(제 2 연관정보)를 이용). 즉, 제 1 음성데이터는 인물 "A"로 식별되고, 이미지 내의 제 1 피사체가 인물 "A"로 식별되면, 양자를 연관시켜, 제 1 음성데이터로부터 획득된 제 1 텍스트를 제 1 피사체 주변에 배치하고, 제 2 음성데이터는 인물 "B"로 식별되고, 이미지 내의 제 2 피사체가 인물 "B"로 식별되면, 양자를 연관시켜, 제 2 음성데이터로부터 획득된 제 2 텍스트를 제 2 피사체 주변에 배치한다. 이와 같이, 피사체 주변에 배치된 텍스트에 대해 사용자 입력이 감지되면, 해당 텍스트와 연관된 음성데이터를 인출하여 출력한다. 예컨대, 제 2 피사체 주변의 제 2 텍스트를 클릭하면, 제 2 음성데이터가 출력되어 사진촬영 당시의 제 2 피사체가 말한 내용이 출력되도록 할 수 있다.As a result of the association, the text obtained by acquiring the text associated with the specific voice data from the text conversion unit based on the text-voice association information (first association information) can be arranged around the associated subject (voice- (Using the second association information). That is, when the first voice data is identified as the character "A ", and the first subject in the image is identified as the character" A ", the first voice data is associated with the first voice data, B, " the second audio data is identified as a character "B ", and if the second subject in the image is identified as a person" B ", associate the second text with the second text obtained from the second audio data . When the user input is detected on the text arranged in the vicinity of the subject, the voice data associated with the text is fetched and output. For example, when the second text around the second subject is clicked, the second voice data is output, and the contents of the second subject at the time of photographing are output.
추가적으로, 음성데이터로부터 획득된 인물정보가 특정 인물로 명확히 판명되진 않고, 10대 여성으로 식별되고, 객체분석을 통한 인물정보가 10대 여성의 피사체로 식별되는 경우, 해당 음성데이터는 10대 여성의 피사체의 음성으로 매칭하여, 상기 해당 음성데이터로부터 변환된 텍스트를 10대 여성 피사체의 주변에 배치되도록 할 수 있다. 이와 같이 음성데이터로부터 획득되는 인물 나이 및 인물성별에 대한 정보도 객체분석에 따른 피사체 정보와 최적으로 매칭될 수 있다. 객체분석에 의해서도 인물의 나이/성별 및 대응되는 목소리 톤 등을 분석할 수 있기 때문이다.In addition, if the person information obtained from the voice data is not clearly identified as a specific person, but is identified as a teenage woman, and the person information through the object analysis is identified as a subject of a teenage woman, The text converted from the voice data can be arranged around the ten female subjects by matching with the voice of the subject. Thus, the information about the person age and the person gender obtained from the voice data can be matched with the subject information according to the object analysis in an optimal manner. It is also possible to analyze the age / sex of the person and the corresponding voice tone by object analysis.
또한, 촬영자의 음성데이터로 식별된 경우, 촬영자가 사진 내의 특정 피사체로 표시되어 있으면, 해당 피사체와 매칭하여 피사체 주변에 배치하고, 촬영자가 사진 내에 없는 경우, 촬영자와 연관된 텍스트 처리 프로세스에 따라 피사체와 연관하여 또는 피사체와 상관없이 정해진 위치에 텍스트를 배치할 수 있다. When the photographer is identified by the voice data of the photographer, if the photographer is displayed with a specific subject in the photograph, the photographing person is arranged around the subject by matching with the subject. If the photographer is not in the photograph, The text can be placed at a predetermined position in association with or regardless of the subject.
도 8a 및 도 8b는 자동모드 및 수동모드에 따라 텍스트가 이미지 내에 임의의 위치에 배치되는 과정을 설명하기 위한 개념도이다. 8A and 8B are conceptual diagrams illustrating a process in which text is arranged at an arbitrary position in the image according to the automatic mode and the manual mode.
도 8a를 참조하면, 장치는 자동모드를 이용하여 텍스트를 연관된 피사체 주변에 배치할 수 있다. 제 1 텍스트(810)는 제 1 피사체(812)와 연관되어 있기 때문에, 제 1 피사체(812)의 주변에 자동으로 배치된다. 제 2 텍스트(820)는 제 2 피사체(822)와 연관되어 있기에 제 2 피사체(822)의 주변에 자동 배치된다. 이때, 배치되는 주변영역은 피사체의 상단 또는 하단, 및/또는 피사체의 좌측 혹은 우측 등으로 사용자 설정에 의해 미리 정해져 있을 수 있다. 또한, 객체식별부에서 피사체 주변의 다른 객체들을 분석한 후, 분석된 다른 객체와의 관계에서 가장 최적화된 위치에 배치되도록 할 수도 있다. 즉, 피사체 상단에 배치되도록 설정된 경우에도, 피사체 상단에 다른 사물객체(예컨대, 건물, 태양 등)가 존재하면, 해당 사물객체를 피하여 좌측이나 우측에 배치되도록 할 수 있다. Referring to FIG. 8A, the device can use automatic mode to place text around an associated subject. Because the first text 810 is associated with the first subject 812, it is automatically placed around the first subject 812. The second text 820 is automatically associated with the second subject 822 and thus around the second subject 822. [ At this time, the peripheral area to be disposed may be predetermined by the user setting at the upper or lower end of the subject and / or the left or right side of the subject. Also, it is possible to analyze other objects around the subject in the object identification unit, and to arrange them in the most optimized position in relation to other analyzed objects. That is, even if it is set to be disposed at the upper end of the subject, if another object object (e.g., building, sun, etc.) exists at the upper end of the subject, the subject object can be arranged to the left or right side.
도 8b를 참조하면, 서로 분리된 제 1 텍스트(830)와 제 2 텍스트(840)는 각각의 텍스트에 대한 사용자 입력(834, 844)을 통해 수동으로 이미지 내의 특정 위치에 배치된다. 이는 반드시 피사체(832, 842)와 연관되어 그 주변에 배치되야만 하는 것은 아니고, 사용자가 임의로 그 위치를 정할 수 있다. Referring to FIG. 8B, the first text 830 and the second text 840 separated from each other are manually placed at specific positions in the image through user inputs 834 and 844 for respective texts. This is not necessarily related to the subject 832, 842 and should be located around the subject, but the user can arbitrarily determine its position.
본 발명의 다른 실시예에 따르면, 장치(또는 서버)는 수동모드에 따라 사용자가 텍스트 배치 영역과 피사체와의 위치관계 및/또는 텍스트 배치 영역과 피사체 주변 객체와의 위치관계를 훈련 데이터 셋으로 생성하여 자동모드에서의 최적화된 삽입위치에 대한 학습이 딥러닝 알고리즘을 통해 이루어지도록 할 수 있다. 이에 따라 자동모드에서의 텍스트 삽입 위치가 보다 사용자(또는 서버에 접속하는 다수 회원들)의 기호에 맞게 이루어질 수 있도록 한다. According to another embodiment of the present invention, the apparatus (or server) generates a positional relationship between a text layout area and a subject and / or a positional relationship between a text layout area and a subject around the subject in a training data set So that the learning of the optimized insertion position in the automatic mode can be performed through the deep learning algorithm. Thereby enabling the text insertion position in the automatic mode to be adapted to the preference of the user (or a plurality of members connecting to the server).
도 9는 인식된 텍스트의 의미에 따라 삽입위치를 결정하기 위한 구성을 구체적으로 나타낸 블록도이다. 도 9에 도시된 바와 같이, 본 발명의 일 실시예에 따라 텍스트 삽입위치를 결정하는 구성은 의미분석부(910) 및 삽입위치 결정부(920)를 포함할 수 있다. 이는 도 2의 이미지 합성부에 포함되는 구성요소일 수 있다.9 is a block diagram specifically illustrating a structure for determining an insertion position according to the meaning of the recognized text. 9, the structure for determining the text insertion position may include a semantic analysis unit 910 and an insertion position determination unit 920 according to an embodiment of the present invention. This may be a component included in the image combining unit of FIG.
도 9를 참조하면, 의미분석부(910)는 텍스트 변환부로부터 인식된 텍스트 정보를 획득하여 단어 데이터베이스(912) 내에 저장된 단어를 기반으로 의미분석을 수행한다. 이는 구문분석을 통해 이루어질 수 있다.9, the semantic analysis unit 910 acquires the recognized text information from the text conversion unit and performs semantic analysis based on the words stored in the word database 912. FIG. This can be done through parsing.
그리고, 분석된 의미정보는 삽입위치 결정부(920)로 제공된다. 삽입위치 결정부(920)는 텍스트의 의미를 기반으로 삽입위치를 결정한다. 즉, 특정의미에 따른 위치관계를 미리 저장하고 있다가 입력된 텍스트에 대응되는 삽입위치를 적절하게 결정한다. Then, the analyzed semantic information is provided to the insertion position determining unit 920. The insertion position determination unit 920 determines the insertion position based on the meaning of the text. That is, the positional relationship according to a specific meaning is stored in advance, and the insertion position corresponding to the input text is appropriately determined.
삽입위치 결정부(920)는 인물과 관련된 의미를 갖는 텍스트는 사람의 주변에 배치한다. 예컨대, "영희", "철수"와 같은 사람이름, "팔", "다리", "머리"와 같은 사람의 특정 부위를 나타내는 단어들은 사람의 주변(특히 해당 부위)에 배치되도록 하는 것이 바람직하다. The insertion position determination unit 920 arranges text having a meaning related to the person around the person. For example, it is preferable that words indicating specific parts of a person, such as a person's name such as "Emily "," .
또한, 사람 간의 관계와 연관된 의미를 갖는 텍스트는 인물 피사체의 사이에 배치되도록 한다. 예컨대, "사랑해", "좋아해", "싫어해", "사이좋게"와 같은 단어들은 둘 이상의 사람들의 사이 또는 정중앙 위치에 배치되도록 할 수 있다.Further, text having a meaning associated with a relationship between persons is arranged between the portrait subjects. For example, words such as "I love you", "I like you", "I hate you", "I love you" can be placed between two or more people or in a central location.
추가적으로, 또 다른 특정 의미의 텍스트는, 피사체의 배치를 고려하지 않고 이미지 전체 영역의 정중앙 또는 좌우측, 상하단 최외곽 부분에 배치되도록 설정할 수도 있다. In addition, the text in another specific meaning may be set to be placed in the center, right and left, upper and lower outermost portions of the entire image area without considering the arrangement of the subject.
특히, 이러한 의미분석된 내용은 피사체 및 사진이미지를 꾸며주는 스티커(sticker)와 연동되어 이미지 내에 삽입될 수 있다. 예컨대, "사랑해"와 같은 텍스트는 "♡"와 같은 하트모양 스티커와 연동되어 이미지 내에 표시될 수 있다. 즉, 특정 의미를 갖는 텍스트와 그에 대응되는 스티커가 미리 저장되어 있어, 텍스트의 의미분석 결과에 따른 스티커가 텍스트와 함께 이미지 내에서 표시되도록 할 수 있다.Particularly, the semantic analysis contents can be inserted into the image in conjunction with a sticker for decorating a subject and a photographic image. For example, text such as "I love you" can be displayed in the image in conjunction with a heart-shaped sticker such as "♡ ". That is, the text having a specific meaning and the corresponding sticker are stored in advance, so that the sticker according to the semantic analysis result of the text can be displayed together with the text in the image.
도 10는 해쉬태그의 자동 생성을 설명하기 위한 개념도이다. 10 is a conceptual diagram for explaining automatic generation of a hash tag.
도 10을 참조하면, 장치는 사진과 연관된 메타데이터, 음성 파일 및 텍스트를 해시태그(hashtag)로 자동변환할 수 있다. 보통의 경우, SNS 플랫폼은 무분별한 사진등록 및 해시태그의 사용으로 광고용 콘텐츠가 다수 검색되도록 되어 검색의 정확성이 매우 떨어지는 단점이 있다. 이에, 본 발명의 일 실시예에 따른 사진공유 장치는, 사진의 메타데이터, 예컨대, 촬영일시, 촬영장소 정보를 해시태그로 자동 변환할 수 있다. 또한, 텍스트 및 음성 정보도 해시태그로 자동 변환된다. Referring to FIG. 10, the device may automatically convert metadata, voice files, and text associated with a photo into a hashtag. In general, the SNS platform has a disadvantage in that the retrieval accuracy is very low because a large number of contents for advertisement are searched by indiscriminately registering a photograph and using a hash tag. Accordingly, the photo sharing apparatus according to the embodiment of the present invention can automatically convert the metadata of the photograph, such as the shooting date and time, and the shooting place information, into a hash tag. In addition, text and audio information is automatically converted into a hashtag.
본 발명의 실시예에 따르면, 장치는 이미지 내의 특정 객체를 추출하여 해당 객체를 해시태그로 변환할 수 있다. 예컨대, 이미지 내에 특정건물에 붙어있는 간판에 "XX 카페"가 표시되어 있는 경우, 앞서 설명한 객체식별부에서 객체추출 알고리즘을 통해 "XX 카페"를 추출하여 이를 기반으로 "#XX 카페"라는 해시태그를 자동생성할 수 있다. According to an embodiment of the present invention, a device extracts a specific object in an image and converts the object into a hashtag. For example, when the " XX cafe "is displayed on a signboard attached to a specific building in the image, the object identification unit described above extracts" XX cafe " Can be automatically generated.
또한, 위의 촬영일시, 촬영장소, 촬영디바이스 등의 메타데이터, 텍스트, 음성 및/또는 이미지 내의 객체정보를 결합하여 태그를 생성함으로써 검색 정확도를 제고시킬 수 있다. In addition, the retrieval accuracy can be improved by generating tags by combining metadata, such as photographing date and time, photographing location, photographing device, and object information in the text, voice, and / or image.
도 11은 감성적인 텍스트 드로잉을 설명하기 위한 개념도이다. 11 is a conceptual diagram for explaining emotional text drawing.
도 11을 참조하면, 본 발명의 일 실시예에 따른 사진공유장치는 이미지 상에 텍스트를 출력함에 있어서, 받아쓰기 형식으로 텍스트가 재생되도록 할 수 있다. 이를 위해, 텍스트를 구성하는 복수 개의 문자 간의 출력 순서, 상기 복수 개의 문자 각각에 포함된 복수 개의 획들 간의 출력 순서 및 상기 복수 개의 획 각각의 출력시점부터 출력종점까지의 드로잉(drawing)에 관한 정보를 저장하고 있다가, 해당 정보를 기반으로 텍스트의 첫 문자부터 최종문자까지 받아쓰기의 형태로 재생되도록 할 수 있다. 즉, 텍스트의 좌측부터 문자를 인식하도록 하고, 좌측문자부터 출력되도록 순서를 정하는 것이 바람직하다. "사랑해"의 경우, "사", 다음 "랑", 그 다음 "해"가 출력되도록 한다. 그리고, 국문 획 순서 정보를 기반으로 각 문자의 획이 쓰여지도록 한다. "사"의 경우 "ㅅ" 그리고, "ㅏ"가 쓰여지되, "/", "\", "ㅣ", "-"의 각 획이 순서에 맞게 출력되도록 한다. 그리고, 각 획은 상단 좌측부터의 우측하단으로 드로잉이 되도록 한다. 이러한 감성적 드로잉은, 해당 텍스트 부분이 드로잉되도록 애니메이션과 같이 다수의 프레임을 통해 구현될 수 있다. 즉, gif 파일과 같은 동영상 형태로 재생될 수 있다. Referring to FIG. 11, in the photo sharing apparatus according to an embodiment of the present invention, when outputting text on an image, text may be reproduced in a dictation format. To this end, it is preferable that an output order of a plurality of characters constituting a text, an output order of a plurality of strokes contained in each of the plurality of characters, and information on a drawing from an output time point to an output end point of each of the plurality of strokes And then reproduced in the form of dictation from the first character to the final character of the text based on the information. That is, it is preferable that characters are recognized from the left side of the text, and the order is determined so as to be outputted from the left character. In the case of "I love you," make sure that "Jesus," "next," and then "sun" are printed. Then, a stroke of each character is written based on the stroke information of the Korean stroke. In the case of the "s", "x" and "a" are written, and each stroke of "/", "\", "l", "-" is output in order. Then, each stroke is drawn from the top left to the bottom right. Such emotional drawing may be implemented through multiple frames, such as animation, so that the text portion is drawn. That is, it can be reproduced in the form of a moving picture such as a gif file.
다만, 이러한 감성적 텍스트 드로잉은 항상 실행되는 것은 아니고, 사용자 설정을 통해 변경될 수 있다. However, such emotional text drawing is not always executed, but can be changed through user setting.
본 발명의 다른 실시예에 따르면, 이미지만 먼저 출력되고, 그 위에 한번에 텍스트가 출력되도록 이미지와 텍스트가 합성된 파일을 재생할 수 있다. According to another embodiment of the present invention, a file in which an image and text are synthesized can be reproduced so that only an image is output first, and text is output thereon at once.
도 12는 본 발명의 일 실시예에 따른 블록체인을 기반으로 데이터를 저장하는 시스템을 나타낸 블록도이다. 본 발명의 일 실시예에 따른 블록체인을 기반으로 하는 데이터를 저장하는 시스템은, 사용자 단말(1210), 인증정보 발급 서버(1220), 블록체인기반 데이터 관리서버(1230) 및 블록체인 데이터 보유서버(1240)를 포함한다.12 is a block diagram illustrating a system for storing data based on a block chain according to an embodiment of the present invention. A system for storing data based on a block chain according to an embodiment of the present invention includes a user terminal 1210, an authentication information issuing server 1220, a block chain-based data management server 1230, (1240).
도 12를 참조하면, 블록체인(block-chain)이라 함은, 알려진 바와 같이, 네트워크 통신상에서 이루어지는 거래 내용을 안전하게 기록하고 저장하는 기술이다. 거래 내용은 각 블록에 기록되는데 이는 시간이 지남에 따라 체인을 형성하게 되고, 이러한 체인들은 P2P 네트워크 상에 분산 저장되어 블록체인 네트워크를 형성하게 된다. Referring to FIG. 12, a block-chain is a technology for securely recording and storing transaction contents on network communication, as is known. Transaction contents are recorded in each block, which forms a chain over time, and these chains are distributed and stored on the P2P network to form a block-chain network.
도 12를 참조하면, 단말(1210)은 공개 키(public key) 및 개인 키(private key)를 생성하고, 생성된 키 중 공개키와 블록체인기반 인증 정보 발급에 필요한 사용자의 식별정보로 이루어진 블록체인기반 인증 정보 발급용 개인정보를 인증정보 발급 서버(1220)로 전송하는 구성이다. 이를 위해, 단말(1210)은 키생성 엔진, 및 암복호화 엔진을 포함할 수 있다. 블록체인기반 인증 정보 발급용 사용자 정보는, 사용자 이름, 사용자 등록번호, 사용자 전화번호, 사용자 이메일 중 적어도 일부를 포함할 수 있다.12, a terminal 1210 generates a public key and a private key, and generates a block including a public key and a user's identification information required for issuing block-chain-based authentication information, And transmits the personal information for issuing the chain-based authentication information to the authentication information issuing server 1220. [ To this end, the terminal 1210 may include a key generation engine and an encryption / decryption engine. The user information for issuing the block chain-based authentication information may include at least a part of a user name, a user registration number, a user telephone number, and a user email.
단말(1210)은 공개키 및 개인키를 생성하기 전에 해당 단말(1210)을 사용하는 사용자가 인증정보 발급 서버(1220)에 사용자의 식별정보를 등록하였는지 먼저 확인하는 과정을 수행할 수 있다. 단말(1210)은, 블록체인기반 인증 정보 발급용 사용자 정보를 인증정보 발급 서버(1220)로 전송하여 블록체인기반 인증 정보 발급을 요청한다.The terminal 1210 can check whether the user using the terminal 1210 has registered the identification information of the user in the authentication information issuing server 1220 before generating the public key and the private key. The terminal 1210 transmits the block-chain-based authentication information issuing user information to the authentication information issuing server 1220 to request issuance of the block-chain-based authentication information.
인증정보 발급 서버(1220)는 전송되는 블록체인기반 인증 정보 발급용 사용자 정보를 계정별 사용자 식별정보 데이터베이스(미도시)와 매칭하여 매칭되는 정보가 존재하면, 공개키 및 개인키의 생성을 안내하는 키생성 안내신호를 생성하여 단말(1210)로 전송한다. 인증정보 발급 서버(1220)는 매칭되는 정보가 없으면, 인증 정보 발급이 불가함을 나타내는 메시지를 전송할 수 있다.The authentication information issuing server 1220 matches the user information for issuing the block-chain-based authentication information with the user-specific identification information database (not shown) for each account, and if matching information exists, guides the generation of the public key and the private key Generates a key generation guide signal, and transmits it to the terminal 1210. If there is no matching information, the authentication information issuing server 1220 can transmit a message indicating that authentication information issuing is not possible.
구체적으로, 인증정보 발급 서버(1220)는 단말(1210)로부터 인증 정보에 대한 발급 요청으로서 특정 사용자의 식별정보를 획득하면 상기 특정 사용자의 식별정보의 등록 여부를 확인한다. 인증정보 발급 서버(1220)는 확인 결과 상기 특정 사용자의 식별정보가 등록 상태이면, 상기 키생성 안내신호를 생성하여 단말(1210)로 하여금 상기 특정 사용자의 공개키 및 개인키를 생성하도록 지원한다. Specifically, when the authentication information issuing server 1220 acquires the identification information of the specific user as the issuing request for the authentication information from the terminal 1210, the authentication information issuing server 1220 confirms whether the identification information of the specific user is registered. When the identification information of the specific user is registered, the authentication information issuing server 1220 generates the key generation guide signal to support the terminal 1210 to generate the public key and the private key of the specific user.
단말(1210)은 인증정보 발급 서버(1220)로부터 키생성 안내신호가 수신되면, 키생성 엔진(미도시)을 실행하여 공개키 및 개인키를 생성한다. 이때, 단말(1210)은, 네트워크를 차단한 상태에서 공개키 및 개인키가 생성되도록 제어함으로써, 혹시라도 발생할 수 있는 각 키의 외부유출을 사전에 차단하는 것이 바람직하다. Upon receiving the key generation guide signal from the authentication information issue server 1220, the terminal 1210 executes a key generation engine (not shown) to generate a public key and a private key. At this time, the terminal 1210 preferably controls the generation of the public key and the private key in a state in which the network is shut off, so that the terminal 1210 may block the outflow of each key that may be generated even if the terminal 1210 exits.
단말(1210)은 암복호화 엔진(미도시)을 운영하여 사용자가 지정한 비밀번호 및/또는 이미지를 기반으로 개인키를 암호화하여 로컬 스토리지(미도시)에 저장한다. 이에 따라 사용자의 개인키가 유출된다 하더라도 사용자가 지정한 비밀번호 및 이미지를 알아야만 정보를 열람할 수 있으므로 보안성이 강화된다. 단말(1210)은 암호화 개인키가 저장되면, 네트워크를 다시 연결하라는 알림을 출력하고, 사용자는 네트워크를 연결할 수 있다.The terminal 1210 operates an encryption / decryption engine (not shown) to encrypt the private key based on the password and / or image designated by the user and stores the encrypted private key in the local storage (not shown). Accordingly, even if the user's private key is leaked, the information can be read only by knowing the password and image designated by the user, thereby enhancing the security. Terminal 1210 outputs a notification to reconnect the network once the encrypted private key is stored, and the user can connect to the network.
인증정보 발급 서버(1220)에는 연동하는 데이터베이스가 존재할 수 있다. 인증정보 발급 서버(1220)의 데이터베이스는 단말(1210)을 운영하는 사용자의 식별정보가 저장된다. 또한, 이는 상기 블록체인기반 인증 정보발급용 사용자 정보와 동일한 사용자의 식별정보가 저장된 회원별 사용자 식별정보 데이터베이스를 포함한다.The authentication information issuing server 1220 may have a database linked thereto. The database of the authentication information issue server 1220 stores identification information of a user who operates the terminal 1210. In addition, it includes a user identification information database for each member in which identification information of a user identical to the user information for issuing the block-chain-based authentication information is stored.
인증정보 발급 서버(1220)는 단말(1210)로부터 공개키 및 블록체인기반 인증정보 발급용 사용자 정보를 전송받고, 블록체인기반 인증 정보 발급용 사용자 정보를 해시 연산하여 사용자 식별 해시정보로 가공처리한다.The authentication information issuing server 1220 receives the public key and the user information for issuing the block-chain-based authentication information from the terminal 1210, performs a hash operation on the user information for issuing the block-chain-based authentication information, and processes the user- .
인증정보 발급 서버(1220)는 사용자 식별해시정보, 공개키 및 블록체인기반 인증 정보 발급용 사용자 정보를 이루는 사용자의 식별정보 중 기지정된 사용자의 식별정보에 해당하는 지정 사용자 식별정보를 취합하여 트랜잭션(transaction) 생성요청신호로 가공하고 이를, 블록체인기반 데이터 관리서버(1230)로 전송하는 서버이다.The authentication information issuing server 1220 collects the designated user identification information corresponding to the identification information of the user designated in the identification information of the user constituting the user identification identification information, the public key, and the user information for issuing the block chain-based authentication information, and transmits it to the block chain-based data management server 1230. The block chain-
블록체인기반 데이터 관리서버(1230)는 사용자의 식별정보의 등록 여부에 따라 트랜잭션 생성 및 전송 동작을 수행할 수 있다. 여기서, 지정 사용자 식별정보는 사용자의 전화번호를 포함할 수 있다. 이를 위해, 인증정보 발급 서버(1220)는 해시처리 엔진(미도시)을 포함할 수 있다. 해시처리 엔진은, 전술한 바와 같이, 블록체인기반 인증 정보발급용 사용자 정보를 해시연산하여 사용자 식별 해시정보로 가공처리하는 기능을 수행한다.The block chain-based data management server 1230 can perform transaction creation and transmission operations according to whether the user's identification information is registered. Here, the designated user identification information may include the telephone number of the user. To this end, the authentication information issuing server 1220 may include a hash processing engine (not shown). As described above, the hash processing engine performs a function of hashing the user information for issuing the block-chain-based authentication information and processing the user information into the user identification hash information.
블록체인기반 데이터 관리서버(1230)는 단말(1210)로부터 인증정보에 대한 발급요청에 따라 사용자의 식별정보가 획득되어 사용자의 식별정보의 등록여부가 확인된 결과, 사용자 정보가 등록 상태이면, 사용자의 공개키 및 식별정보의 해시값 또는 이를 가공한 값을 출력으로 하는 트랜잭션을 생성하여 블록체인에 전송하거나 전송하도록 지원하고, 트랜잭션이 블록체인 상에 기록된 위치 정보를 나타내는 트랜잭션 ID(transaction ID)를 획득하는 구성이다. 블록체인에 대한 전송은 블록체인 데이터 보유서버(1240)에 대한 전송으로 이루어질 수 있다. 이를 위해, 블록체인기반 데이터 관리서버(1230)는 특정 사용자의 식별정보를 데이터베이스에서 확인할 수 있다. 블록체인기반 데이터 관리서버(1230)는 트랜잭션이 상기 블록체인 상에 기록된 위치 정보를 나타내는 트랜잭션 ID를 획득 및 저장할 수 있고, 사용자 식별 해시정보와 트랜잭션 ID를 해시연산하여 사용자검증 해시정보로 가공처리할 수 있다.If the identification information of the user is acquired in response to the issuance request for the authentication information from the terminal 1210 and it is determined whether or not the identification information of the user is registered, if the user information is in the registration state, And generating a transaction that outputs a hash value of the public key and the identification information or a value obtained by processing the hash value of the public key and the identification information, . The transmission to the block chain may be made to the block chain data holding server 1240. To this end, the block-chain-based data management server 1230 can identify the specific user's identification information in the database. The block chain-based data management server 1230 can acquire and store a transaction ID indicating a location information recorded on the block chain, and hash the user identification hash information and the transaction ID to process the user verification hash information can do.
이러한 기능을 수행하는 블록체인기반 데이터 관리 서버(1230)는 서비스 이용 시 인증 수행이 요구되는 업체의 서버일 수 있다.The block chain-based data management server 1230 performing such a function may be a server of a company that requires authentication to be performed when using the service.
블록체인 데이터 보유서버(1240)들은 각각 하나의 구성원으로 이루어진다. 이는 도 2의 단말들(295-1~295-N)과 대응되는 구성일 수 있다. 각각의 블록체인 데이터 보유서버(1240)에는 블록체인을 갖는 사용자 정보에 해당하는 트랜잭션이 저장되며, 새로운 트랜잭션이 수신되면 검증을 수행한 후 트랜잭션 정보가 기록됨과 더불어 지정된 다음단의 블록체인 데이터 보유서버(1240)들에게 본 발명의 일 실시예에 따른 이미지, 텍스트, 음성 및/또는 메타데이터(또는 이와 연관된 링크 정보)(이하, "이미지/텍스트 패키징 정보"라고 한다)에 해당하는 트랜잭션을 전파한다.The block chain data holding servers 1240 are each made up of one member. This may be a configuration corresponding to the terminals 295-1 to 295-N of FIG. The transaction corresponding to the user information having the block chain is stored in each block chain data holding server 1240. When a new transaction is received, the transaction information is recorded after the verification, and at the same time, (Hereinafter referred to as "image / text packaging information") according to an embodiment of the present invention to the client 1240 .
구체적으로, 이미지/텍스트 패키징 정보에 해당하는 트랜잭션의 전파는 통신규약(protocol)에 의해 약속된 것으로, 새로운 트랜잭션의 생성시 1개의 노드(여기서는 블록체인 데이터 보유서버(1240)를 칭함)가 지정된 다수(예컨대, 8개)의 노드로 전파시키며, 그 비트코인(이더리움 등 다른 암호화 화폐를 사용하여도 무방함) 결제용 트랜잭션정보를 전송받은 다수의 노드마다 각각 지정된 다수의 노드로 반복 전파하는 피라미드식 전파를 통해 모든 블록체인 데이터 보유서버(1240)에게 전파됨으로써, 완료된다. 이처럼, 블록체인에 기록되는 모든 트랜잭션은 추후 위변조가 불가능하다.More specifically, the propagation of the transaction corresponding to the image / text packaging information is promised by a communication protocol, and when a new transaction is created, one node (referred to as a block chain data holding server 1240 in this case) (For example, eight) nodes, and the bit-coin (which may be another encryption currency such as etherium) may be used. In a pyramid that repeatedly propagates to a plurality of nodes designated for each of a plurality of nodes, And propagated to all of the block chain data holding servers 1240 through the expression propagation, thereby completing the processing. As such, all transactions written to the block chain are not forgery-fake.
상술한 바와 같이, 본 발명의 일 실시예에 따른 블록체인 기반으로 데이터를 저장하는 시스템은 이미지/텍스트 패키징 정보를 블록체인 형태인 블록체인 보유 서버(1240)들에 기록한다. 또한, 상기 시스템은 단말 또는 복수 단말 간에 주고받은 패키징 정보의 송수신 내역, 검색 내역 및/또는 이와 연관된 결제 내역 정보를 상기 블록체인 보유 서버(1240)들에 기록할 수 있다.As described above, the system for storing data on a block chain basis according to an embodiment of the present invention records image / text packaging information in a block chain holding server 1240 in a block chain form. In addition, the system may record transmission / reception history, search history, and / or payment history information of packaging information transmitted between a terminal and a plurality of terminals in the block chain holding servers 1240.
블록체인기반 데이터 관리서버(1230)는 블록체인 보유 서버(1240)들에 기록된 정보들에 대한 추가, 이전, 및 삭제를 포함하는 정보 관리 업무를 수행하고, 상기 정보 관리 업무를 상기 블록체인 보유 서버(1240)들의 승인에 기반하여 처리하도록 구성된다.The block chain-based data management server 1230 performs an information management task including addition, transfer, and deletion of information recorded in the block-chain holding servers 1240, and transmits the information management task to the block- Based on the approval of the servers 1240. [
상기 블록체인 보유 서버(1240)들에 기록되는 이미지/텍스트 패키징 정보는 이미지, 텍스트, 음성데이터(또는 음성데이터에 대한 링크 정보), 메타데이터를 포함한다.The image / text packaging information recorded in the block chain holding servers 1240 includes image, text, voice data (or link information for voice data), and metadata.
본 발명의 일 실시예에 따르면, 상기 단말(1210)은, 이미지/텍스트 패키징 정보의 기록 요청이 있는 경우, 인증정보 발급 서버(1220)를 통해 공개키 및 개인키를 생성하여 블록체인기반 데이터 관리서버(1230)로 전송하고, 블록체인기반 데이터 관리서버(1230)는 상기 단말(1210)로부터 수신한 공개키 및 개인키의 등록 여부를 확인한 뒤, 상기 단말(1210)이 요청한 이미지/텍스트 패키징 정보를 해시값으로 가공하여 정보 기록을 위한 트랜잭션을 생성하고, 생성된 트랜잭션을 상기 블록체인 보유 서버(1240)들에게 전달하여 승인하도록 구성된다.According to an embodiment of the present invention, when there is a request to record image / text packaging information, the terminal 1210 generates a public key and a private key through the authentication information issuing server 1220, And the block chain-based data management server 1230 checks whether or not the public key and the private key received from the terminal 1210 are registered and then transmits the image / text packaging information requested by the terminal 1210 to the server 1230, To a hash value to generate a transaction for information recording, and transmits the generated transaction to the block-chain holding servers 1240 to be approved.
도 13은 본 발명의 일 실시예에 따른 블록체인을 기반의 데이터를 저장 방법을 설명하기 위한 흐름도이다.13 is a flowchart illustrating a method of storing data based on a block chain according to an embodiment of the present invention.
도 13을 참조하면, 전술한 설명에서, 단말은 사진 정보(이미지/텍스트 패키징 정보)를 블록체인기반 데이터 관리서버에게 요청한다(S1310). 그리고는, 단말으로부터 수신한 공개키 및 개인키의 등록 여부를 확인한 뒤, 해시값으로 가공하여 정보 기록을 위한 트랜잭션 블록을 생성하고(S1320), 생성된 트랜잭션 블록을 상기 블록체인 보유 서버들에게 전달한다(S1330). 이때, 트랜잭션의 전파는 통신규약(protocol)에 의해 약속된 것으로, 새로운 트랜잭션의 생성시 1개의 노드가 지정된 다수의 노드로 전파시키며, 그 비트코인(이더리움 등 다른 암호화 화폐를 사용하여도 무방함) 결제용 트랜잭션 정보를 전송받은 다수의 노드마다 각각 지정된 다수의 노드로 반복 전파하는 피라미드식 전파를 통해 모든 블록체인 데이터 보유서버에게 전파된다. 모든 블록체인 보유서버가 트랜잭션 블록을 승인하고(S1340), 트랜잭션 블록을 추가하면(S1350), 단말로부터 요청된 사진정보의 기록이 완료된다(S1360).Referring to FIG. 13, in the above description, the terminal requests the picture information (image / text packaging information) from the block chain-based data management server (S1310). After confirming whether or not the public key and the private key received from the terminal are registered, a hash value is generated to generate a transaction block for information recording (S1320), and the generated transaction block is transmitted to the block chain holding servers (S1330). At this time, the propagation of the transaction is promised by a communication protocol, and when a new transaction is generated, one node propagates to a specified number of nodes, and its bit coin (etherium or other encrypted currency may be used) ) The payment transaction information is propagated to all block chain data holding servers through pyramidal propagation which is repeatedly propagated to a plurality of nodes designated for each of a plurality of nodes that have received the transaction information for payment. When all the block chain holding servers approve the transaction block (S1340), the transaction block is added (S1350), and the recording of the requested photo information from the terminal is completed (S1360).
본 발명의 실시예에 따르면, 비트코인과 같은 암호화 화폐는 사진정보와 연관된 트랜잭션의 발생과 함께 발생될 수 있다. 또는 특정 트랜잭션에 대한 타 사용자들의 공유요청과 함께 발생될 수도 있다. 즉, 정보 공유에 따른 명성 획득에 따라 암호화화폐를 획득할 수 있다. 또한, 블록체인 기반의 플랫폼은 SNS와 같은 공유 플랫폼을 포함한다. 즉, 페이스북(FACEBOOK), 인스타그램(INSTAGRAM)과 같은 형태의 사진공유 플랫폼이 상술한 공개형 블록체인 방식으로 운영되는 시스템이 본 발명의 일 실시예에 따른 사진공유 방법이 적용되는 시스템일 수 있다.According to an embodiment of the present invention, an encrypted currency such as a bit coin may be generated with the occurrence of a transaction associated with photo information. Or with other users' sharing requests for a particular transaction. In other words, it is possible to acquire the encrypted currency according to the acquisition of reputation through information sharing. In addition, the block chain-based platform includes a shared platform such as the SNS. That is, a system in which a photo sharing platform such as a Facebook (FACEBOOK) and an Instagram (INSTAGRAM) is operated in the open type block chain manner is a system in which a photo sharing method according to an embodiment of the present invention is applied .
추가적으로, 본 발명의 실시예에 따르면, 상술한 공개형 블록체인 방식 이외에도, 폐쇄형 블록체인 방식이 본 발명의 일 실시예에 따른 사진공유 시스템에 적용될 수 있다. Additionally, according to an embodiment of the present invention, in addition to the open type block chain method described above, a closed block chain method can be applied to the photo sharing system according to an embodiment of the present invention.
이상에서 설명된 시스템 또는 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 시스템, 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The system or apparatus described above may be implemented as a hardware component, a software component, and / or a combination of hardware components and software components. For example, the systems, devices, and components described in the embodiments may be implemented in various forms such as, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable array ), A programmable logic unit (PLU), a microprocessor, or any other device capable of executing and responding to instructions. The processing device may execute an operating system (OS) and one or more software applications running on the operating system. The processing device may also access, store, manipulate, process, and generate data in response to execution of the software. For ease of understanding, the processing apparatus may be described as being used singly, but those skilled in the art will recognize that the processing apparatus may have a plurality of processing elements and / As shown in FIG. For example, the processing unit may comprise a plurality of processors or one processor and one controller. Other processing configurations are also possible, such as a parallel processor.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.The software may include a computer program, code, instructions, or a combination of one or more of the foregoing, and may be configured to configure the processing device to operate as desired or to process it collectively or collectively Device can be commanded. The software and / or data may be in the form of any type of machine, component, physical device, virtual equipment, computer storage media, or device , Or may be permanently or temporarily embodied in a transmitted signal wave. The software may be distributed over a networked computer system and stored or executed in a distributed manner. The software and data may be stored on one or more computer readable recording media.
실시예들에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The method according to embodiments may be implemented in the form of a program instruction that may be executed through various computer means and recorded in a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, and the like, alone or in combination. The program instructions to be recorded on the medium may be those specially designed and configured for the embodiments or may be available to those skilled in the art of computer software. Examples of computer-readable media include magnetic media such as hard disks, floppy disks, and magnetic tape; optical media such as CD-ROMs and DVDs; magnetic media such as floppy disks; Magneto-optical media, and hardware devices specifically configured to store and execute program instructions such as ROM, RAM, flash memory, and the like. Examples of program instructions include machine language code such as those produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter or the like. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is to be understood that the invention is not limited to the disclosed exemplary embodiments. For example, it is to be understood that the techniques described may be performed in a different order than the described methods, and / or that components of the described systems, structures, devices, circuits, Lt; / RTI > or equivalents, even if it is replaced or replaced.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents to the claims are also within the scope of the following claims.

Claims (31)

  1. 카메라를 통해 사진을 촬영함에 따라 촬영된 사진에 대한 이미지를 획득하는 단계;Obtaining an image of the photographed image by photographing the photographed image through a camera;
    상기 획득된 이미지와 연관된 음성데이터를 획득하는 단계;Obtaining voice data associated with the obtained image;
    상기 획득된 음성데이터를 인식하여 텍스트를 생성하는 단계;Recognizing the acquired voice data to generate text;
    상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트를 연관시켜 저장하는 단계; 및Associating and storing the obtained image, the obtained voice data and the generated text; And
    상기 저장된 이미지를, 상기 저장된 음성데이터 및 상기 저장된 텍스트 중 적어도 하나와 함께 출력하는 단계를 포함하는 음성인식 기반의 사진 공유 방법.And outputting the stored image with at least one of the stored voice data and the stored text.
  2. 제 1 항에 있어서,The method according to claim 1,
    상기 획득된 이미지는 현재 촬영되는 사진 및 현재시점 이전의 시점에 촬영되어 기저장된 사진 중 적어도 하나로부터 획득되는 음성인식 기반의 사진 공유 방법.Wherein the acquired image is obtained from at least one of a photograph being photographed at present and a photographed and previously stored photograph at a point in time before the current point in time.
  3. 제 1 항에 있어서,The method according to claim 1,
    상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트를 연관시켜 저장하는 단계는,And associating and storing the obtained image, the obtained voice data and the generated text,
    상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트와 연관된 정보를 서버에 저장하는 단계를 포함하는 음성인식 기반의 사진 공유 방법.Storing the acquired image, the obtained voice data, and information associated with the generated text in a server.
  4. 제 3 항에 있어서,The method of claim 3,
    상기 서버에 저장된 데이터를 검색할 때, 상기 음성데이터 및 상기 텍스트 중 적어도 하나를 기반으로 검색하는 음성인식 기반의 사진 공유 방법.And searching for data stored in the server based on at least one of the voice data and the text.
  5. 제 1 항에 있어서, 상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트를 연관시켜 저장하는 단계는:2. The method of claim 1, wherein associating and storing the obtained image, the obtained voice data, and the generated text comprises:
    상기 텍스트를 상기 이미지에 삽입하는 단계를 포함하되,Inserting the text into the image,
    상기 텍스트는 상기 이미지와 동일한 제 1 계층 또는 상기 이미지와 서로 다른 제 2 계층으로 삽입되는 음성인식 기반의 사진 공유 방법.Wherein the text is inserted into a first layer that is the same as the image or a second layer that is different from the image.
  6. 제 5 항에 있어서, 상기 텍스트의 상기 제 1 계층으로의 삽입은,6. The method of claim 5, wherein insertion of the text into the first layer comprises:
    상기 텍스트를 상기 이미지 상의 임의의 영역에 삽입하는 단계;Inserting the text into an arbitrary area on the image;
    상기 텍스트가 삽입된 제 1 영역을 식별하는 단계; 및Identifying a first area in which the text is embedded; And
    상기 텍스트가 삽입된 이미지를 이미지 파일로 생성하는 단계를 포함하되, Generating an image in which the text is embedded as an image file,
    상기 이미지 파일은 상기 제 1 영역에 대한 식별정보와 연관되는 음성인식 기반의 사진 공유 방법.Wherein the image file is associated with identification information for the first area.
  7. 제 6 항에 있어서, The method according to claim 6,
    상기 텍스트가 삽입된 이미지를 이미지 파일로 생성하는 단계는 상기 텍스트가 삽입된 이미지를 스캔하여 이미지 파일로 생성하는 단계를 포함하는 음성인식 기반의 사진 공유 방법.Wherein the step of generating the image including the text as an image file comprises scanning the embedded image to generate an image file.
  8. 제 6 항에 있어서,The method according to claim 6,
    상기 텍스트가 상기 제 1 계층으로 삽입될 때, 상기 식별된 제 1 영역에 대한 사용자 입력에 대응하여 상기 저장된 음성데이터가 출력되는 음성인식 기반의 사진 공유 방법.Wherein when the text is inserted into the first layer, the stored voice data is output corresponding to a user input for the identified first area.
  9. 제 5 항에 있어서,6. The method of claim 5,
    상기 텍스트가 상기 제 2 계층으로 삽입될 때, When the text is inserted into the second layer,
    상기 제 2 계층의 텍스트에 대한 사용자 입력에 대응하여 상기 저장된 음성데이터가 출력되는 음성인식 기반의 사진 공유 방법.Wherein the stored voice data is output corresponding to a user input for the text of the second layer.
  10. 제 1 항에 있어서,The method according to claim 1,
    상기 저장되는 음성데이터는 상기 이미지 및 상기 텍스트와 함께 패키징되어 저장되는 음성인식 기반의 사진 공유 방법.Wherein the stored voice data is packaged and stored with the image and the text.
  11. 제 1 항에 있어서,The method according to claim 1,
    상기 저장되는 음성데이터는 상기 별도의 저장소에 저장되고, The stored voice data is stored in the separate storage,
    상기 이미지, 상기 텍스트는 상기 음성데이터의 저장소에 대한 링크 정보와 함께 패키징되는 음성인식 기반의 사진 공유 방법.Wherein the image, the text, is packaged with link information to a repository of the voice data.
  12. 제 1 항에 있어서,The method according to claim 1,
    상기 연관된 음성데이터는 사진촬영과 관련된 제 1 공간의 외부에 존재하는 촬영자와 연관된 음성데이터 및 상기 제 1 공간 내에 존재하는 피사체와 연관된 음성데이터 중 적어도 하나를 포함하는 음성인식 기반의 사진 공유 방법.Wherein the associated voice data comprises at least one of voice data associated with a photographer present outside a first space associated with photographing and voice data associated with a subject present in the first space.
  13. 제 1 항에 있어서, 상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트를 연관시켜 저장하는 단계는,2. The method of claim 1, wherein associating and storing the obtained image, the obtained voice data,
    상기 획득된 음성데이터 - 음성데이터는 제 1 음성특성을 갖는 제 1 음성데이터 및 제 2 음성특성을 갖는 제 2 음성데이터를 포함함 - 를 음성분석하여 상기 제 1 음성데이터와 상기 제 2 음성데이터로 분리하는 단계를 포함하는 음성인식 기반의 사진 공유 방법.Wherein the acquired voice data-voice data includes first voice data having a first voice characteristic and second voice data having a second voice characteristic, and performing a voice analysis on the first voice data and the second voice data The method comprising the steps of:
  14. 제 13 항에 있어서,14. The method of claim 13,
    상기 분리된 제 1 음성데이터를 인식하여 제 1 텍스트를 생성하고,Recognizing the separated first voice data to generate a first text,
    상기 분리된 제 2 음성데이터를 인식하여 제 2 텍스트를 생성하되,Recognizing the separated second voice data to generate a second text,
    상기 제 1 텍스트 및 상기 제 2 텍스트는 각각 제 1 음성데이터와 상기 제 2 음성데이터와 연관시키는 음성인식 기반의 사진 공유 방법.Wherein the first text and the second text are associated with first audio data and second audio data, respectively.
  15. 제 14 항에 있어서,15. The method of claim 14,
    상기 제 1 텍스트는 사용자의 제 1 입력에 따른 상기 저장된 이미지 상의 위치에 배치되고,Wherein the first text is located at a location on the stored image according to a first input of a user,
    상기 제 2 텍스트는 사용자의 제 2 입력에 따른 상기 저장된 이미지 상의 위치에 배치되는 음성인식 기반의 사진 공유 방법.Wherein the second text is located at a location on the stored image according to a second input of the user.
  16. 제 14 항에 있어서, 상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트를 연관시켜 저장하는 단계는,15. The method of claim 14, wherein associating and storing the obtained image, the obtained speech data,
    상기 이미지에 대해 객체인식 알고리즘을 적용하여 상기 이미지에 포함된 제 1 피사체 및 제 2 피사체를 각각 인식하는 단계;Recognizing a first object and a second object respectively included in the image by applying an object recognition algorithm to the image;
    상기 이미지에 포함된 제 1 피사체는 상기 제 1 텍스트와 연관시키는 단계; 및Associating a first subject included in the image with the first text; And
    상기 이미지에 포함된 제 2 피사체는 상기 제 2 텍스트와 연관시키는 단계를 포함하는 음성인식 기반의 사진 공유 방법.And associating a second subject included in the image with the second text.
  17. 제 16 항에 있어서,17. The method of claim 16,
    상기 제 1 텍스트는 상기 제 1 피사체 주변에 배치되고, Wherein the first text is disposed around the first subject,
    상기 제 2 텍스트는 상기 제 2 피사체 주변에 배치되는 음성인식 기반의 사진 공유 방법.And wherein the second text is disposed around the second subject.
  18. 제 1 항에 있어서, The method according to claim 1,
    제 1 항에 있어서, 상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트를 연관시켜 저장하는 단계는,2. The method of claim 1, wherein associating and storing the obtained image, the obtained voice data,
    상기 획득된 음성데이터와 연관된 음성특성정보를 음성 데이터베이스에 기저장된 음성특성정보와 비교하여 상기 음성데이터를 식별하는 단계를 포함하는 음성인식 기반의 사진 공유 방법.And comparing the voice characteristic information associated with the obtained voice data to voice characteristic information previously stored in a voice database to identify the voice data.
  19. 제 1 항에 있어서, The method according to claim 1,
    상기 이미지의 영역 중, 기지정된 위치 및 이미지 분석 결과에 따른 위치 중 적어도 하나의 위치에 상기 텍스트가 자동으로 배치되는 제 1 모드; 및A first mode in which the text is automatically placed in at least one position among a region of the image, a pre-designated position, and a position in accordance with an image analysis result; And
    사용자 입력에 따라 상기 텍스트가 배치되는 제 2 모드 중 하나에 의해 상기 텍스트의 위치가 결정되는 음성인식 기반의 사진 공유 방법.Wherein the location of the text is determined by one of a second mode in which the text is arranged according to user input.
  20. 제 19 항에 있어서, 20. The method of claim 19,
    상기 텍스트의 의미를 분석하는 단계를 더 포함하고, Further comprising analyzing the meaning of the text,
    상기 제 1 모드로 동작할 때, 의미 분석된 결과에 대응되는 영역에 상기 텍스트가 자동으로 배치되는 음성인식 기반의 사진 공유 방법.Wherein the text is automatically placed in an area corresponding to a semantic analysis result when operating in the first mode.
  21. 제 20 항에 있어서,21. The method of claim 20,
    제 1 의미를 갖는 텍스트는 상기 이미지 내의 피사체와 연관된 영역에 배치되고,Text having a first meaning is placed in an area associated with a subject in the image,
    제 2 의미를 갖는 텍스트는 상기 피사체와 관련없이 이미지 전체 영역 중 기설정된 어느 한 영역에 배치되는 음성인식 기반의 사진 공유 방법.Wherein the text having the second meaning is disposed in a predetermined region of the entire image region, regardless of the subject.
  22. 제 1 항에 있어서,The method according to claim 1,
    상기 저장된 이미지를 소셜 네트워크 서비스(SNS: Social Network Service)에 등록할 때, 상기 이미지, 상기 음성데이터, 상기 텍스트 및 상기 이미지와 연관된 메타데이터 중 적어도 하나를 기반으로 해시태그(hashtag)를 자동생성하여 등록하는 음성인식 기반의 사진 공유 방법.A hash tag is automatically generated based on at least one of the image, the voice data, the text, and metadata associated with the image when the stored image is registered in a social network service (SNS) A method for sharing photos based on speech recognition.
  23. 제 1 항에 있어서, The method according to claim 1,
    상기 저장된 이미지를 소셜 네트워크 서비스(SNS: Social Network Service)에 등록할 때, 상기 이미지 내의 제 1 객체를 추출하여 상기 제 1 객체에 대한 정보를 기반으로 해시태그(hashtag)를 자동생성하여 등록하는 음성인식 기반의 사진 공유 방법.When registering the stored image in a social network service (SNS), a hash tag (hashtag) is automatically generated and registered based on information about the first object by extracting a first object in the image Recognition based photo sharing method.
  24. 제 1 항에 있어서,The method according to claim 1,
    상기 텍스트를 출력함에 있어서, In outputting the text,
    상기 텍스트를 구성하는 복수 개의 문자 간의 출력 순서, 상기 복수 개의 문자 각각에 포함된 복수 개의 획들 간의 출력 순서 및 상기 복수 개의 획 각각의 출력시점부터 출력종점까지의 드로잉(drawing)에 관한 정보를 기반으로, Based on the output order among the plurality of characters constituting the text, the output order between the plurality of strokes included in each of the plurality of characters, and the drawing information from the output time point to the output end point of each of the plurality of strokes ,
    상기 텍스트의 첫 문자부터 최종문자까지 받아쓰기의 형태로 상기 텍스트를 재생하는 음성인식 기반의 사진 공유 방법.Wherein the text is reproduced in the form of a dictation from the first character to the last character of the text.
  25. 제 1 항에 있어서,The method according to claim 1,
    상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트를 연관시켜 저장하는 단계는,And associating and storing the obtained image, the obtained voice data and the generated text,
    상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트와 연관된 정보를 블록체인(blockchain)에 기록하는 단계를 포함하는 음성인식 기반의 사진 공유 방법.And recording the acquired image, the obtained voice data, and information associated with the generated text in a blockchain.
  26. 제 25 항에 있어서,26. The method of claim 25,
    상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트와 연관된 정보를 블록체인 형태로 기록하기 위한 요청이 있는 경우, If there is a request to record the acquired image, the obtained voice data and the information associated with the generated text in block-chain form,
    인증정보 발급 서버를 통해 공개키 및 개인키를 생성하여 블록체인기반 데이터 관리서버로 전송함으로써 블록체인 데이터 보유 서버로 상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트와 연관된 정보를 제공하는 음성인식 기반의 사진 공유 방법.Generating the public key and the private key through the authentication information issuing server and transmitting the public key and the private key to the block chain-based data management server by providing the obtained image, the obtained voice data and the information associated with the generated text Speech recognition based photo sharing method.
  27. 제 26 항에 있어서,27. The method of claim 26,
    상기 공개키 및 개인키는 상기 블록체인기반 데이터 관리서버에서 등록 여부를 확인에 사용되고,Wherein the public key and the private key are used to confirm whether or not to register in the block chain-based data management server,
    상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트와 연관된 정보는 해시값으로 가공되어 정보 기록을 위한 트랜잭션(transaction)으로 생성되며,Wherein the acquired image, the acquired voice data, and information associated with the generated text are processed into a hash value and generated in a transaction for information recording,
    상기 생성된 트랜잭션은 상기 블록체인 보유 서버에게 전달되어 승인되도록 구성되는 음성인식 기반의 사진 공유 방법.Wherein the generated transaction is configured to be delivered to and approved by the block chain holding server.
  28. 카메라를 통해 사진을 촬영함에 따라 촬영된 사진에 대한 이미지를 획득하고, 상기 획득된 이미지와 연관된 음성데이터를 획득하는 정보 획득부;An information acquiring unit acquiring an image of a photographed photograph as a photograph is taken through a camera, and acquiring voice data associated with the obtained image;
    상기 획득된 음성데이터를 인식하여 텍스트를 생성하는 텍스트 변환부;A text conversion unit for recognizing the obtained speech data and generating text;
    상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트를 연관시켜 저장하는 데이터 저장부; 및A data storage unit for associating and storing the obtained image, the obtained voice data, and the generated text; And
    상기 저장된 이미지를 상기 저장된 음성데이터 및 상기 저장된 텍스트 중 적어도 하나와 함께 출력하는 데이터 출력부를 포함하는 음성인식 기반의 사진 공유 장치.And a data output unit for outputting the stored image together with at least one of the stored voice data and the stored text.
  29. 사진과 연관된 이미지, 및 상기 이미지와 연관된 음성데이터를 획득하며, 상기 획득된 음성데이터를 인식하여 텍스트를 생성하고, 상기 이미지, 상기 음성데이터 및 상기 텍스트를 연관시켜 저장하고 상기 저장된 이미지, 음성데이터 및 텍스트를 블록체인(block-chain) 형태로 기록하기 위해 요청하는 사용자 단말;Acquiring image data associated with the image, and voice data associated with the image, recognizing the acquired voice data to generate text, storing the image, the voice data and the text in association with each other, A user terminal requesting to write text in a block-chain form;
    상기 사용자 단말에서 생성된 이미지, 음성데이터 및 텍스트를 블록체인 형태로 기록하는 복수 개의 블록체인 보유 서버들; 및A plurality of block chain holding servers for recording image, voice data and text generated in the user terminal in a block chain form; And
    상기 블록체인 보유 서버들에 기록된 블록체인 정보들에 대한 추가, 이전 및 삭제 중 적어도 하나를 포함하는 블록체인 관리 업무를, 상기 복수 개의 블록체인 보유 서버들의 승인에 기반하여 처리하는 블록체인기반 데이터 관리서버를 포함하는 음성인식 기반의 사진 공유 시스템.A block chain management task including at least one of adding, transferring, and deleting block chain information recorded in the block chain holding servers based on an acknowledgment of the plurality of block chain holding servers, A voice recognition based photo sharing system including a management server.
  30. 제 29 항에 있어서,30. The method of claim 29,
    상기 블록체인 기반 데이터 관리서버는, 제 1 사용자 단말과 제 2 사용자 단말 간에 주고받은, 상기 이미지, 음성데이터 및 텍스트와 관련된 다운로드 정보 및 결제 정보 중 적어도 하나를 상기 블록체인 보유 서버들에 기록하는 음성인식 기반의 사진 공유 시스템.The block-chain-based data management server includes a block-chain-based data management server for storing at least one of download information and settlement information related to the image, voice data and text sent between the first user terminal and the second user terminal, Recognition based photo sharing system.
  31. 제 29 항에 있어서,30. The method of claim 29,
    상기 이미지, 음성데이터 및 텍스트의 블록체인 기록 요청이 있는 경우, 상기 사용자 단말은 인증정보 발급 서버를 통해 공개키 및 개인키를 생성하여 블록체인기반 데이터 관리서버로 전송하고,The user terminal generates a public key and a private key through the authentication information issuing server and transmits the public key and the private key to the block chain based data management server,
    상기 블록체인기반 데이터 관리서버는 상기 사용자 단말로부터 수신한 공개키 및 개인키의 등록 여부를 확인한 뒤, 상기 사용자 단말이 요청한 이미지, 음성데이터 및 텍스트를 해시값으로 가공하여 정보 기록을 위한 트랜잭션을 생성하고, 생성된 트랜잭션을 상기 블록체인 보유 서버들에게 전달하여 승인하도록 구성되는 음성인식 기반의 사진 공유 시스템.The block chain-based data management server checks whether the public key and the private key received from the user terminal are registered, generates a transaction for information recording by processing the image, voice data and text requested by the user terminal into a hash value And to forward the generated transaction to the block chain holding servers and to approve the transaction.
PCT/KR2018/009228 2017-12-05 2018-08-10 Method, device, and system for sharing photographs on basis of voice recognition WO2019112145A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2017-0165720 2017-12-05
KR20170165720 2017-12-05

Publications (1)

Publication Number Publication Date
WO2019112145A1 true WO2019112145A1 (en) 2019-06-13

Family

ID=66751068

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2018/009228 WO2019112145A1 (en) 2017-12-05 2018-08-10 Method, device, and system for sharing photographs on basis of voice recognition

Country Status (2)

Country Link
KR (1) KR102196199B1 (en)
WO (1) WO2019112145A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4195136A1 (en) * 2021-12-08 2023-06-14 eBay Inc. Automated video generation from images for e-commerce applications

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210017087A (en) 2019-08-06 2021-02-17 삼성전자주식회사 Method for recognizing voice and an electronic device supporting the same
KR102389842B1 (en) * 2020-09-01 2022-04-25 주식회사 스마트캐스트 System and method for managing ordered menu information
KR102523829B1 (en) * 2021-05-14 2023-04-20 (주)오맥스 Visual presenter and method for producing contents using the same
KR102492228B1 (en) * 2021-06-29 2023-01-27 주식회사 레드윗 Blockchain-based research note management system
KR20230168534A (en) * 2022-06-07 2023-12-14 크리온 주식회사 Contents Recommending method

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011223240A (en) * 2010-04-08 2011-11-04 Nec Corp Mobile information terminal, image registration method, and image classification and organization method
KR20140029894A (en) * 2012-08-31 2014-03-11 엘지전자 주식회사 Mobile terminal
KR20150092390A (en) * 2014-02-03 2015-08-13 주식회사 엠앤엘솔루션 Apparatus for tagging image file based in voice and method for searching image file based in cloud services using the same
JP2016170654A (en) * 2015-03-13 2016-09-23 株式会社リコー Information processing terminal, information processing method, program and information processing unit
US20170161439A1 (en) * 2007-07-03 2017-06-08 Eingot Llc Records access and management

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101096091B1 (en) * 2010-05-20 2011-12-19 충북대학교 산학협력단 Apparatus for Separating Voice and Method for Separating Voice of Single Channel Using the Same
KR101661930B1 (en) * 2015-08-03 2016-10-05 주식회사 코인플러그 Certificate issuance system based on block chain
KR20170107413A (en) * 2017-09-05 2017-09-25 윤진구 Image file loading method (and storage device which contains the program performing the method) by which user can read the comments about the image in the form of text items and tooltips

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170161439A1 (en) * 2007-07-03 2017-06-08 Eingot Llc Records access and management
JP2011223240A (en) * 2010-04-08 2011-11-04 Nec Corp Mobile information terminal, image registration method, and image classification and organization method
KR20140029894A (en) * 2012-08-31 2014-03-11 엘지전자 주식회사 Mobile terminal
KR20150092390A (en) * 2014-02-03 2015-08-13 주식회사 엠앤엘솔루션 Apparatus for tagging image file based in voice and method for searching image file based in cloud services using the same
JP2016170654A (en) * 2015-03-13 2016-09-23 株式会社リコー Information processing terminal, information processing method, program and information processing unit

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4195136A1 (en) * 2021-12-08 2023-06-14 eBay Inc. Automated video generation from images for e-commerce applications

Also Published As

Publication number Publication date
KR20190066537A (en) 2019-06-13
KR102196199B1 (en) 2020-12-30

Similar Documents

Publication Publication Date Title
WO2019112145A1 (en) Method, device, and system for sharing photographs on basis of voice recognition
CN102782751B (en) Digital media voice tags in social networks
US7831598B2 (en) Data recording and reproducing apparatus and method of generating metadata
US9058375B2 (en) Systems and methods for adding descriptive metadata to digital content
US20190172456A1 (en) Method for sharing photograph based on voice recognition, apparatus and system for the same
WO2016028042A1 (en) Method of providing visual sound image and electronic device implementing the same
JP5120777B2 (en) Electronic data editing apparatus, electronic data editing method and program
US8521007B2 (en) Information processing method, information processing device, scene metadata extraction device, loss recovery information generation device, and programs
WO2016119370A1 (en) Method and device for implementing sound recording, and mobile terminal
KR20070118038A (en) Information processing apparatus, information processing method, and computer program
EP2027557A1 (en) Media identification
WO2016093552A2 (en) Terminal device and data processing method thereof
US20060036441A1 (en) Data-managing apparatus and method
KR101592981B1 (en) Apparatus for tagging image file based in voice and method for searching image file based in cloud services using the same
JP4589910B2 (en) Conversation recording blogging device
EP3230902A2 (en) Terminal device and data processing method thereof
WO2019112181A1 (en) Electronic device for executing application by using phoneme information included in audio data and operation method therefor
WO2021169351A1 (en) Method and apparatus for anaphora resolution, and electronic device
CN110970011A (en) Picture processing method, device and equipment and computer readable storage medium
JP2006018551A (en) Information processing apparatus and method, and program
WO2014201953A1 (en) Methods, apparatus, and terminal devices of image processing
JP2017021672A (en) Search device
US20190066676A1 (en) Information processing apparatus
JP2005346259A (en) Information processing device and information processing method
WO2012057561A2 (en) System and method for providing an instant messenger service, and communication terminal and communication method therefor

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18887079

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18887079

Country of ref document: EP

Kind code of ref document: A1