KR20140109729A - 의미기반 검색 시스템 및 이의 검색방법 - Google Patents

의미기반 검색 시스템 및 이의 검색방법 Download PDF

Info

Publication number
KR20140109729A
KR20140109729A KR1020130024090A KR20130024090A KR20140109729A KR 20140109729 A KR20140109729 A KR 20140109729A KR 1020130024090 A KR1020130024090 A KR 1020130024090A KR 20130024090 A KR20130024090 A KR 20130024090A KR 20140109729 A KR20140109729 A KR 20140109729A
Authority
KR
South Korea
Prior art keywords
user
log
analysis
value
alternative
Prior art date
Application number
KR1020130024090A
Other languages
English (en)
Inventor
김형우
조준면
이무훈
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020130024090A priority Critical patent/KR20140109729A/ko
Priority to US13/975,002 priority patent/US9268767B2/en
Publication of KR20140109729A publication Critical patent/KR20140109729A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 사용자의 키워드 입력에 따른 복수 개의 해석 대안이 검색될 경우 사용자의 선호도를 고려하여 해석 대안들을 랭킹하여 검색의 정밀성을 향상시키는 의미기반 검색 시스템 및 이의 검색 방법에 관한 것이다. 본 발명에 따른 의미기반 검색 시스템은 일반 상식에 해당되는 지식을 저장한 공통 로그 및 사용자의 선호도를 반영하여 저장한 사용자 로그를 생성하는 로그생성부와, 사용자로부터 입력된 키워드에 따른 해석 대안들 중 인스턴스에 해당되는 벡터 특성을 분석하는 인스턴스 분석부와, 공통 로그 및 사용자 로그 중 적어도 어느 하나에 대해 인스턴스의 벡터 특성을 포함한 해석 대안들의 신뢰도 값 및 코사인 유사도 값에 대한 가중치를 산출하는 가중치 산출부와, 신뢰도 값 및 코사인 유사도 값의 가중치 산출에 기반하여 키워드의 입력에 따른 해석 대안들의 랭킹을 정렬하는 정렬부를 포함하는 것을 특징으로 한다. 이에 의하여, 신뢰도 값 및 코사인 유사도 값의 가중치 산출에 따른 사용자 키워드 검색에 따른 해석 대안들을 사용자 선호도를 반영하여 랭킹으로 정렬할 수 있으므로, 사용자의 검색 만족도를 향상시킬 수 있다.

Description

의미기반 검색 시스템 및 이의 검색방법{SYSTEM FOR SEARCHING SEMANTIC AND SEARCHING METHOD THEREOF}
본 발명은 의미기반 검색 시스템 및 이의 검색방법에 관한 것으로서, 보다 상세하게는 키워드 입력에 따라 키워드의 해석 대안들 제공하는 의미기반 검색 시스템 및 이의 검색방법에 관한 것이다.
기존의 웹 검색 엔진의 검색 방식에서는 사용자가 검색하고자 하는 키워드를 입력할 때, 검색문(또는 컨텐츠)의 내용 또는 검색문에 부가된 메타데이터(meta-data) 내에서 키워드와 일치하는 키워드를 나타내는 검색문을 검색하였다. 이렇게, 검색문의 검색은 키워드의 입력에 따라 키워드에 일치하는 검색문을 검색하기 때문에 키워드 간의 관계로 표현되는 검색문의 의미를 해석할 필요가 없었다.
그러나, 최근에 들어 기존 키워드 일치 기반의 검색 방식은 단순한 검색에 따른 한계에 봉착하여 의미기반 검색(semantic search) 방식이 연구되고 있다. 여기서, 의미기반 검색방식은 입력된 키워드들이 나타내는 개체 간의 관계를 기반으로 검색문의 의미를 해석하고 해석과 일치하는 자료를 검색하는 검색방식이다.
또한, 최근 들어 사용자가 검색 응용을 실행하는 단말장치들은 PC(personal computer) 이외에도 스마트폰, 태블릿PC 및 스마트TV 등과 같이 문장 입력 인터페이스에 제약이 있는 단말장치들로 확대되고 있다. 이러한 단말장치들의 단말 환경에서는 키워드를 입력하는 전용 키보드의 부재에 따라 작은 화면에 표시된 쿼티 자판 등을 통해 검색문을 입력한다. 최근 들어 확대된 단말장치들은 작은 화면에 표시된 쿼티 자판 등을 통해 키워드를 입력함에 따라 자판 입력 횟수를 최소화하기 위해 완전한 자연어 문장을 입력하기 보다는 동사 등을 누락하고 핵심어만 입력한다. 이렇게, 제한적인 입력 환경에 따른 입력 방식은 핵심어만 입력된 경우 문장 구조에 관한 정보가 없어 의미 해석을 어렵게 한다.
한편, 의미기반 검색방식을 사용하는 종래의 의미기반 검색 시스템은 "대한민국특허공개공보 제10-2012-0053253호"인 "하이브리드 시맨틱 검색시스템 및 방법"이 개시되어 있다.
상술한 선행문헌인 "하이브리드 시맨틱 검색시스템 및 방법"은 사용자 단말로부터 수신한 질의어의 유형을 판단하는 단계, 질의어가 사용자에 의해 입력된 자유 질의어인 경우 질의어에 대하여 키워드 검색을 수행하는 단계, 질의어에 대한 키워드 검색 결과에 기초하여 질의어에 대한 의미기반 검색 여부를 판단하고 판단에 기초하여 질의어에 대하여 온톨로지(ontology)를 이용한 의미기반 검색을 수행하는 단계 및 수행한 의미기반 검색 결과를 사용자 단말에 제공하는 단계를 포함하는 기술적 특징을 가진다.
그런데, 종래의 선행문헌에 개시된 "하이브리드 시맨틱 검색시스템 및 방법은"은 사용자가 입력한 키워드의 개수를 고정시키고 이때 각 키워드가 매핑될 수 있는 지식 베이스 개체의 종류, 예를 들어 인스턴스(instance), 특성(property) 및 클래스(class)의 수의 조합에 따른 경우에 대해 지식 베이스에서 일치하는 부분 그래프를 탐색함으로써, 사용자가 실질적으로 검색을 하고자 하는 키워드의 해석 대안들을 정확히 도출하기 어려운 문제점이 있다.
대한민국공개특허공보 제10-2012-0053253호: 하이브리드 시맨틱 검색시스템 및 방법
본 발명의 목적은 사용자의 키워드 입력에 따른 복수 개의 해석 대안이 검색될 경우 사용자의 선호도를 고려하고 해석 대안들을 랭킹하여 검색의 정밀성을 향상시키는 의미기반 검색 시스템 및 이의 검색방법을 제공하는 것이다.
상기 과제의 해결 수단은, 본 발명에 따라 일반 상식에 해당되는 지식을 저장한 공통 로그 및 사용자의 선호도를 반영하여 저장한 사용자 로그를 생성하는 로그생성부와, 사용자로부터 입력된 키워드에 따른 해석 대안들 중 인스턴스에 해당되는 벡터 특성을 분석하는 인스턴스 분석부와, 상기 공통 로그 및 상기 사용자 로그 중 적어도 어느 하나에 대해 상기 인스턴스의 벡터 특성을 포함한 해석 대안들의 신뢰도 값 및 코사인 유사도 값에 대한 가중치를 산출하는 가중치 산출부와, 상기 신뢰도 값 및 상기 코사인 유사도 값의 가중치 산출에 기반하여 상기 키워드의 입력에 따른 해석 대안들의 랭킹을 정렬하는 정렬부를 포함하는 것을 특징으로 하는 의미기반 검색 시스템에 의해 이루어진다.
여기서, 상기 신뢰도 값은 상기 공통 로그와 해석 대안 사이의 신뢰도 값 및 상기 사용자 로그와 해석 대안 사이의 신뢰도 값을 포함할 수 있다.
그리고, 상기 코사인 유사도 값은 상기 사용자 로그와 해석 대안 사이의 코사인 유사도 값을 포함할 수 있다.
상기 가중치 산출부는 순차적으로 상기 공통 로그와 해석 대안 사이의 신뢰도 값, 상기 사용자 로그와 해석 대안 사이의 신뢰도 값 및 상기 사용자 로그와 해석 대안 사이의 코사인 유사도 값에 가중치를 산출하는 것이 바람직하다.
상기 의미기반 검색 시스템은 상기 공통 로그에 저장되는 일반 상식에 해당되는 지식이 저장된 데이터 베이스부를 더 포함할 수 있다.
상기 공통로그가 복수 개의 해석 대안을 가질 경우, 상기 공통로그와 해석 대안 사이의 신뢰도 값에 대한 가중치 산출은 반영하지 않는 것이 바람직하다.
상기 사용자 로그는 사용자가 검색했던 검색 기록을 포함할 수 있다.
한편, 상기 과제의 해결 수단은, 본 발명에 따라 (a) 사용자가 검색했던 정보를 사용자 선호도로 반영하여 저장한 사용자 로그를 생성하는 단계와, (b) 사용자가 키워드를 입력하면 일반적인 상식에 해당하는 지식을 저장한 공통로그를 생성하는 단계와, (c) 상기 키워드의 입력에 따른 해석 대안들 중 인스턴스에 해당하는 벡터 특성을 분석하는 단계와, (d) 상기 공통로그 및 상기 사용자 로그 중 적어도 어느 하나에 대해 상기 인스턴스의 벡터 특성을 포함한 해석 대안들의 신뢰도 값 및 코사인 유사도 값에 대한 가중치를 산출하는 단계와, (e) 상기 신뢰도 값 및 상기 코사인 유사도 값의 가중치 산출에 기반하여 상기 키워드의 입력에 따른 해석 대안들의 랭킹을 정렬하는 단계를 포함하는 것을 특징으로 하는 의미기반 검색 시스템의 검색방법에 의해서도 이루어진다.
여기서, 상기 신뢰도 값은 상기 공통 로그와 해석 대안 사이의 신뢰도 값 및 상기 사용자 로그와 해석 대안 사이의 신뢰도 값을 포함할 수 있다.
그리고, 상기 코사인 유사도 값은 상기 사용자 로그와 해석 대안 사이의 코사인 유사도 값을 포함할 수 있다.
상기 (d) 단계는 상기 공통 로그와 해석 대안 사이의 신뢰도 값, 상기 사용자 로그와 해석 대안 사이의 신뢰도 값 및 상기 사용자 로그와 해석 대안 사이의 코사인 유사도 값에 대한 가중치 산출이 순차적으로 이루어지는 것이 바람직하다.
또한, 바람직하게 상기 (d) 단계는 상기 (c) 단계에서 상기 키워드의 입력에 따른 해석대안이 복수 개일 때, 상기 사용자 로그와 해석 대안 사이의 신뢰도 값 및 상기 사용자 로그와 해석 대안 사이의 코사인 유사도 값에 대한 가중치 산출이 순차적으로 이루어질 수 있다.
상기 (a) 단계는 사용자가 특정 검색어를 입력하는 단계와, 상기 특정 검색어 입력에 따른 해석 결과 중 인스턴스의 특성을 분석하여 분석된 내용을 포함하는 사용자의 상기 특정 검색어를 상기 사용자 로그에 저장하는 단계를 포함할 수 있다.
상기 (b) 단계는 상기 의미기반 검색 시스템은 일반 상식에 해당되는 지식이 저장된 데이터 베이스부를 포함하며, 상기 공통 로그는 사용자가 상기 키워드를 입력할 때 상기 데이터 베이스부로부터 상기 키워드에 해당되는 정보를 추출하여 저장하는 것이 바람직하다.
기타 실시 예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
본 발명에 따른 의미기반 검색 시스템 및 이의 검색방법은 다음과 같은 효과가 있다.
첫째, 신뢰도 값 및 코사인 유사도 값의 가중치 산출에 따른 사용자 키워드 검색에 따른 해석 대안들을 사용자 선호도를 반영하여 랭킹으로 정렬할 수 있고, 이에 따라 사용자의 검색 만족도를 향상시킬 수 있다.
둘째, 과거에 사용자가 검색 이력이 없을 때 일반적인 상식을 포함한 공통 로그를 이용하여 해석 대안들을 검색할 수 있다.
도 1은 본 발명에 따른 의미기반 검색 시스템의 제어 블록도,
도 2의 (a) 및 (b)는 도 1에 도시된 가중치 산출부에서 해석 대안들의 신뢰도 값을 산출하는 알고리즘,
도 3의 (a) 및 (b)는 도 1에 도시된 가중치 산출부에서 해석 대안들의 코사인 유사도 값을 산출하는 알고리즘 및 공통 로그와 사용자 로그들에 대한 신뢰도 값과 코사인 유사도 값의 정확도를 나타낸 표,
도 4는 본 발명에 따른 의미기반 검색 시스템의 검색 방법의 절차를 도시한 흐름도,
도 5는 본 발명에 따른 의미기반 검색 시스템의 검색 방법에서 사용자 로그를 생성하는 순서도,
도 6은 본 발명에 따른 의미기반 검색 시스템의 검색 방법에 대한 순서도이다.
이하, 본 발명의 실시 예에 따른 의미기반 검색 시스템 및 이의 검색방법에 대해 첨부된 도면을 참조하여 상세히 설명한다.
설명하기에 앞서, 이하에서 설명되는 해석 대안은 사용자가 검색하고자 하는 검색문(또는 컨텐츠)에 연관된 키워드를 입력할 때 검색되는 검색물임을 미리 밝혀둔다.
도 1은 본 발명에 따른 의미기반 검색 시스템의 제어 블록도이다.
도 1에 도시된 바와 같이, 본 발명에 따른 의미기반 검색 시스템(1)은 로그생성부(10), 데이터 베이스부(20), 인스턴스 분석부(30), 가중치 산출부(50) 및 정렬부(70)를 포함한다.
로그생성부(10)는 일반 상식에 해당되는 지식을 저장한 공통 로그 및 사용자 선호도를 반영하여 저장한 사용자 로그를 생성한다. 로그생성부(10)는 사용자가 키워드를 입력할 때 데이터 베이스부(20)에 저장된 지식 정보를 이용하여 공통로그를 생성하고, 사용자가 과거에 이용한 정보를 이용하여 사용자 로그를 생성한다.
데이터 베이스부(20)는 공통 로그에 저장되는 일반 상식에 해당되는 지식을 저장한다. 데이터 베이스부(20)는 크게 확장할 때 인터넷망에서 정보를 제공하는 서버로 볼 수 있다. 데이터 베이스부(20)에 저장된 지식 정보는 사용자의 키워드 입력에 따라 인스턴스 분석에 사용될 수 있다.
인스턴스 분석부(30)는 사용자로부터 입력된 키워드에 따른 해석 대안들 중 인스턴스(객체 지향 프로그래밍에서 어떤 클래스에 속하는 각 개체를 의미)에 해당되는 벡터 특성을 분석한다. 인스턴스 분석부(30)에 의해 분석되는 벡터 특성은 데이터 베이스부(20)에 저장된 인스턴스의 정보에 따라 다양한 가중치를 가질 수 있다.
예를 들어, 인스턴스 벡터 특성은 'A'의 인물이 입력되었을 때 'A'에 대한 인스턴스의 특성 벡터를 분석한다. 상세히 설명하면, 'A'가 연출한 영화 7편, 출연한 영화 2편, 제작한 영화 1편이 검색될 때 인스턴스 벡터의 특성은 {[영화배우, 0.7], [영화감독, 0.2], [제작자 0.1]}이 된다. 반면, 'B'의 인물이 입력될 때 'B'가 출연한 영화 3편이 검색되면, 인스턴스 벡터의 특성은 {[영화배우, 1]}이 된다.
한편, 실질적으로 상술한 공통 로그와 사용자 로그는 인스턴스 분석을 통해서 이루어진다. 공통 로그는 "{영화배우, 1} {출연} {영화}" 및 "{영화배우, 1} {연출} {영화}"와 같은 일반적인 지식이 포함될 때, 'B'의 인물이 입력될 때 출연한 영화가 가장 바람직한 해석 대안이 될 수 있다. 그러나, 공통 로그는 인스턴스의 벡터 특성이"{영화감독 0.5}, {영화배우 0.5} {연출} {영화}"와 같이 "영화감독이면서 영화배우인 인스턴스가 연출한 영화"와 같은 해석 대안은 사용자의 선호에 따라 달라질 수 있으므로 공통 로그에 명시하지 않는다.
다음으로 사용자 로그는 해당 사용자가 과거 사용했던 키워드를 저장하는 로그로서 사용자의 선호도를 반영하기 위해 사용된다. 예를 들어, 사용자 로그는 사용자가 과거 "C 연출 영화"를 키워드로 입력한 경우, 인스턴스 분석부의 인스턴스 분석 과정을 거쳐 "{영화감독, 0.5} {영화배우, 0.5} {연출} {영화}"가 저장될 수 있다. 향후, 사용자가 C와 유사한 D의 특성을 나타내는 인스턴스를 키워드로 입력하였을 때, 과거 사용자 로그에 있는 {연출}이 {출연} 또는 {제작}과 같은 프러퍼티(특성) 보다 높은 가중치를 갖도록 사용된다.
다음으로 도 2의 (a) 및 (b)는 도 1에 도시된 가중치 산출부에서 해석 대안들의 신뢰도 값을 산출하는 알고리즘이고, 도 3의 (a) 및 (b)는 도 1에 도시된 가중치 산출부에서 해석 대안들의 코사인 유사도 값을 산출하는 알고리즘 및 공통 로그와 사용자 로그들에 대한 신뢰도 값과 코사인 유사도 값의 정확도를 나타낸 표이다.
도 2 및 도 3에 도시된 바와 같이, 가중치 산출부(50)는 공통 로그 및 사용자 로그 중 적어도 어느 하나에 대해 인스턴스의 벡터 특성을 포함한 해석 대안들의 신뢰도 값 및 코사인 유사도 값에 대한 가중치를 산출한다. 본 발명의 일 실시 예로서, 가중치 산출부(50)는 신뢰도 값의 가중치를 산출하는 제1산출부(52) 및 코사인 유사도 값의 가중치를 산출하는 제2산출부(54)를 포함한다.
가중치 산출부(50)는 공통로그와 사용자 로그에 대해서 해석 대안의 가중치를 산출하기 위하여 기존 데이터 마이닝(data-mining)이나 정보 검색 분야에서 사용되는 다양한 산출법을 이용할 수 있다. 본 발명의 일 실시 예로서, 가중치 산출부(50)는 신뢰도(confidence) 값과 코사인 유사도(cosine similarity) 값을 이용하여 해석 대안들의 가중치를 산출한다.
여기서, 기존에 연관규칙 마이닝 기법에 의해 산출되는 신뢰도 값은 도 2의 (a)에 도시되어 있다.
예를 들어, 사용자의 키워드 입력에 따라 사용자 로그가 2개 생성된다. 이때, 사용자의 키워드 입력에 따른 해석 대안의 신뢰도 값이 동일하게 산출된다. 이렇게 신뢰도 값이 동일하게 산출되기 때문에 사용자의 선호도가 반영되지 못 하는 문제점이 있다. 즉, 인스턴스의 벡터 특성 분석으로 나온 가중치(예; 영화감독 0.8과 배우 0.2 및 영화감독 0.1과 배우 0.9)를 반영하지 못하기 때문에 사용자의 선호도가 반영되지 않는다.
그런데, 도 2의 (b)의 수정된 신뢰도 값은 산출은 인스턴스의 벡터 특성 분석으로 나온 가중치와 키워드 입력에 따른 인스턴스를 곱하고, 각각의 곱한 값을 더한 후에 곱한 개수로 나누어서 신뢰도를 산출할 수 있다. 이렇게, 수정된 신뢰도 값의 산출 방식에 따라 신뢰도 값이 크기 값이 상대 비교될 수 있으므로, 사용자 선호도에 따른 해석 대안들의 랭킹을 정렬할 수 있다.
한편, 도 2의 (b)의 수정된 신뢰도 값에 따른 산출 방식은 각 요소들을 모두 포함하여야 신뢰도 값을 산출할 수 있으므로 정확도(precision)가 높지만, 요소 중 한 개라도 사용자 로그에 존재하지 않으면 값을 산출 할 수 없어 상대적으로 낮은 리콜(recall) 값을 갖게 되는 특성이 있다.
이에 따라, 가중치 산출부(50)는 도 3의 (a)에 따라 코사인 유사도 값을 산출한다. 코사인 유사도로 구한 해석 대안의 가중치는 두 벡터 사이의 모든 요소가 동일할 필요가 없으므로, 모든 해석 대안들에 대해 가중치를 계산할 수 있어 상대적으로 높은 리콜 값을 가질 수 있다. 또한, 벡터의 크기를 고려하기 때문에 해석 대안의 길이가 길수록 가중치가 줄어드는 특성을 가지고 있다.
도 3의 (a)는 공통 로그와 해석 대안 사이의 신뢰도 값 및 사용자 로그와 해석 대안 사이의 신뢰도 값과 코사인 유사도 값을 적용하여 가중치를 산출할 때 갖게 되는 특성을 표로 나타내고 있다. 공통 로그의 특성 상 코사인 유사도 값으로 구한 해석 대안의 가중치는 정확도와 리콜이 모두 낮아지는 특성을 보이기 때문에 가중치를 산출하는 것이 부적절한 것으로 판단된다. 그러므로, 본 발명의 가중치 산출부(50)는 사용자 로그와 해석 대안 사이의 코사인 유사도 값만 가중치로 산출한다.
정렬부(70)는 신뢰도 값 및 코사인 유사도 값의 가중치 산출에 기반하여 사용자의 키워드 입력에 따른 해석 대안들의 랭킹을 정렬한다. 상세하게, 정렬부(70)는 사용자 선호도를 고려하여 신뢰도 값을 및 코사인 유사도 값의 가중치를 산출하여 해석 대안들의 랭킹을 정렬한다. 즉, 정렬부(70)는 가중치 산출부(50)에서 산출된 공통 로그와 해석 대안 사이의 신뢰도 값, 사용자 로그와 해석 대안 사이의 신뢰도 값 및 사용자 로그와 해석 대안 사이의 코사인 유사도 값을 기초로 하여 해석 대안들의 랭킹을 정렬한다.
다음으로 도 4는 본 발명에 따른 의미기반 검색 시스템의 검색 방법의 절차를 도시한 흐름도, 도 5는 본 발명에 따른 의미기반 검색 시스템의 검색 방법에서 사용자 로그를 생성하는 순서도, 그리고 도 6은 본 발명에 따른 의미기반 검색 시스템의 검색 방법에 대한 순서도이다.
도 4 내지 도 6에 도시된 바와 같이, 본 발명에 따른 의미기반 검색 시스템(1)의 검색 방법은 다음과 같다.
도 4에 도시된 바와 같이, 의미기반 검색 시스템(1)은 해석 대안들의 랭킹을 정렬할 때, 사용자로부터 키워드가 입력되면 공통 로그와 해석 대안 사이의 신뢰도 값, 사용자 로그와 해석 대안 사이의 신뢰도 값 및 사용자 로그와 해석 대안 사이의 코사인 유사도 값을 순차적으로 산출하여 해석 대안들의 랭킹을 정렬한다.
한편, 도 5에 도시된 바와 같이, 사용자 선호도를 랭킹 정렬하기 위해 사용되는 사용자 로그는 다음과 같다.
우선, 사용자 로그를 생성하는 것은 과거에 사용자가 입력했던 키워드를 통해 이루어진다.
사용자는 검색하고자 하는 키워드를 입력한다(S10). 사용자가 키워드를 입력하면 키워드 입력에 따른 컨텐츠를 검색한다(S30). 이때, 키워드 입력이 될 때 인스턴스의 벡터 특성을 분석하여 컨텐츠를 검색한다. 사용자에 의해 소비된 컨텐츠를 저장하여 사용자 선호도에 따른 해석 대안들의 랭킹을 정렬할 수 있도록 사용자 로그를 생성한다(S50).
마지막으로 본 발명에 따른 의미기반 검색 시스템(1)의 검색 방법은 도 6을 참조하여 이하에서 설명한다.
우선적으로 도 5에 도시된 사용자 로그를 생성하는 단계(S10 내지 S50)를 수행하여 사용자 로그를 생성한다(S100). 사용자 키워드 입력에 따라 공통 로그를 생성한다(S120). 여기서, 공통 로그는 인스턴스의 벡터 특성에 따라 사용되지 않을 수도 있다.
인스턴스 분석을 통해 인스턴스의 벡터 특성을 분석한다(S160). 공통 로그와 사용자 로그 중 적어도 어느 하나에 대해 인스턴스의 벡터 특성을 포함한 해석 대안들의 신뢰도 값 및 코사인 유사도 값에 대한 가중치를 산출한다(S160). 이때, 공통 로그와 해석 대안 사이의 신뢰도 값, 사용자 로그와 해석 대안 사이의 신뢰도 값 및 사용자 로그와 해석 대안 사이의 코사인 유사도 값에 대한 가중치 산출은 순차적으로 이루어진다. 공통 로그와 해석 대안 사이의 신뢰도 값, 사용자 로그와 해석 대안 사이의 신뢰도 값 및 사용자 로그와 해석 대안 사이의 코사인 유사도 값에 기반하여 검색된 해석 대안들을 사용자 선호도에 따른 랭킹으로 정렬한다(S180).
그리고, 'S180 단계'에서 랭킹 정렬된 해석대안들로 컨텐츠를 검색한다(S200). 최종적으로 사용자에게 검색결과를 제공한다(S220).
이에, 신뢰도 값 및 코사인 유사도 값의 가중치 산출에 따른 사용자 키워드 검색에 따른 해석 대안들을 사용자 선호도를 반영하여 랭킹으로 정렬할 수 있고, 이에 따라 사용자의 검색 만족도를 향상시킬 수 있다.
또한, 과거에 사용자가 검색 이력이 없을 때 일반적인 상식을 포함한 공통 로그를 이용하여 해석 대안들을 검색할 수 있다.
이상 첨부된 도면을 참조하여 본 발명의 실시 예들을 설명하였지만, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명의 그 기술적 사상이나 필수적인 특징들이 변경되지 않고서 다른 구체적인 형태로 실시될 수 있다는 것으로 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
1: 의미기반 검색 시스템 10: 로그생성부
20: 데이터 베이스부 30: 인스턴스 분석부
50: 가중치 산출부 52: 제1산출부
54: 제2산출부 70: 정렬부

Claims (14)

  1. 일반 상식에 해당되는 지식을 저장한 공통 로그 및 사용자의 선호도를 반영하여 저장한 사용자 로그를 생성하는 로그생성부와;
    사용자로부터 입력된 키워드에 따른 해석 대안들 중 인스턴스에 해당되는 벡터 특성을 분석하는 인스턴스 분석부와;
    상기 공통 로그 및 상기 사용자 로그 중 적어도 어느 하나에 대해 상기 인스턴스의 벡터 특성을 포함한 해석 대안들의 신뢰도 값 및 코사인 유사도 값에 대한 가중치를 산출하는 가중치 산출부와;
    상기 신뢰도 값 및 상기 코사인 유사도 값의 가중치 산출에 기반하여, 상기 키워드의 입력에 따른 해석 대안들의 랭킹을 정렬하는 정렬부를 포함하는 것을 특징으로 하는 의미기반 검색 시스템.
  2. 제1항에 있어서,
    상기 신뢰도 값은,
    상기 공통 로그와 해석 대안 사이의 신뢰도 값 및 상기 사용자 로그와 해석 대안 사이의 신뢰도 값을 포함하는 것을 특징으로 하는 의미기반 검색 시스템.
  3. 제2항에 있어서,
    상기 코사인 유사도 값은 상기 사용자 로그와 해석 대안 사이의 코사인 유사도 값을 포함하는 것을 특징으로 하는 의미기반 검색 시스템.
  4. 제3항에 있어서,
    상기 가중치 산출부는 순차적으로 상기 공통 로그와 해석 대안 사이의 신뢰도 값, 상기 사용자 로그와 해석 대안 사이의 신뢰도 값 및 상기 사용자 로그와 해석 대안 사이의 코사인 유사도 값에 가중치를 산출하는 것을 특징으로 하는 의미기반 검색 시스템.
  5. 제1항에 있어서,
    상기 의미기반 검색 시스템은,
    상기 공통 로그에 저장되는 일반 상식에 해당되는 지식이 저장된 데이터 베이스부를 더 포함하는 것을 특징으로 하는 의미기반 검색 시스템.
  6. 제4항에 있어서,
    상기 공통로그가 복수 개의 해석 대안을 가질 경우, 상기 공통로그와 해석 대안 사이의 신뢰도 값에 대한 가중치 산출은 반영하지 않는 것을 특징으로 하는 의미기반 검색 시스템.
  7. 제1항에 있어서,
    상기 사용자 로그는 사용자가 검색했던 검색 기록을 포함하는 것을 특징으로 하는 의미기반 검색 시스템.
  8. (a) 사용자가 검색했던 정보를 사용자 선호도로 반영하여 저장한 사용자 로그를 생성하는 단계와;
    (b) 사용자가 키워드를 입력하면 일반적인 상식에 해당하는 지식을 저장한 공통로그를 생성하는 단계와;
    (c) 상기 키워드의 입력에 따른 해석 대안들 중 인스턴스에 해당하는 벡터 특성을 분석하는 단계와;
    (d) 상기 공통로그 및 상기 사용자 로그 중 적어도 어느 하나에 대해 상기 인스턴스의 벡터 특성을 포함한 해석 대안들의 신뢰도 값 및 코사인 유사도 값에 대한 가중치를 산출하는 단계와;
    (e) 상기 신뢰도 값 및 상기 코사인 유사도 값의 가중치 산출에 기반하여, 상기 키워드의 입력에 따른 해석 대안들의 랭킹을 정렬하는 단계를 포함하는 것을 특징으로 하는 의미기반 검색 시스템의 검색방법.
  9. 제8항에 있어서,
    상기 신뢰도 값은,
    상기 공통 로그와 해석 대안 사이의 신뢰도 값 및 상기 사용자 로그와 해석 대안 사이의 신뢰도 값을 포함하는 것을 특징으로 하는 의미기반 검색 시스템의 검색방법.
  10. 제9항에 있어서,
    상기 코사인 유사도 값은 상기 사용자 로그와 해석 대안 사이의 코사인 유사도 값을 포함하는 것을 특징으로 하는 의미기반 검색 시스템의 검색방법.
  11. 제10항에 있어서,
    상기 (d) 단계는,
    상기 공통 로그와 해석 대안 사이의 신뢰도 값, 상기 사용자 로그와 해석 대안 사이의 신뢰도 값 및 상기 사용자 로그와 해석 대안 사이의 코사인 유사도 값에 대한 가중치 산출이 순차적으로 이루어지는 것을 특징으로 하는 의미기반 검색 시스템의 검색방법.
  12. 제10항에 있어서,
    상기 (d) 단계는,
    상기 (c) 단계에서 상기 키워드의 입력에 따른 해석대안이 복수 개일 때, 상기 사용자 로그와 해석 대안 사이의 신뢰도 값 및 상기 사용자 로그와 해석 대안 사이의 코사인 유사도 값에 대한 가중치 산출이 순차적으로 이루어지는 것을 특징으로 하는 의미기반 검색 시스템의 검색방법.
  13. 제1항에 있어서,
    상기 (a) 단계는,
    사용자가 특정 검색어를 입력하는 단계와;
    상기 특정 검색어 입력에 따른 해석 결과 중 인스턴스의 특성을 분석하여, 분석된 내용을 포함하는 사용자의 상기 특정 검색어를 상기 사용자 로그에 저장하는 단계를 포함하는 것을 특징으로 하는 의미기반 검색 시스템의 검색방법.
  14. 제1항에 있어서,
    상기 (b) 단계는,
    상기 의미기반 검색 시스템은 일반 상식에 해당되는 지식이 저장된 데이터 베이스부를 포함하며,
    상기 공통 로그는 사용자가 상기 키워드를 입력할 때, 상기 데이터 베이스부로부터 상기 키워드에 해당되는 정보를 추출하여 저장하는 것을 특징으로 하는 의미기반 검색 시스템의 검색방법.
KR1020130024090A 2013-03-06 2013-03-06 의미기반 검색 시스템 및 이의 검색방법 KR20140109729A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020130024090A KR20140109729A (ko) 2013-03-06 2013-03-06 의미기반 검색 시스템 및 이의 검색방법
US13/975,002 US9268767B2 (en) 2013-03-06 2013-08-23 Semantic-based search system and search method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130024090A KR20140109729A (ko) 2013-03-06 2013-03-06 의미기반 검색 시스템 및 이의 검색방법

Publications (1)

Publication Number Publication Date
KR20140109729A true KR20140109729A (ko) 2014-09-16

Family

ID=51489214

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130024090A KR20140109729A (ko) 2013-03-06 2013-03-06 의미기반 검색 시스템 및 이의 검색방법

Country Status (2)

Country Link
US (1) US9268767B2 (ko)
KR (1) KR20140109729A (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180101955A (ko) 2017-03-06 2018-09-14 주식회사 수브이 문헌 스코어링 방법 및 문헌 검색 시스템
KR20180101956A (ko) 2017-03-06 2018-09-14 주식회사 수브이 문헌 스코어링 방법
WO2019074191A1 (ko) * 2017-10-13 2019-04-18 고려대학교 산학협력단 암 치료 예측결과 제공 방법 및 시스템, 인공 지능망 기반 치료 예측 결과 제공 방법 및 시스템, 그리고 치료 예측결과 및 근거 자료 일괄 제공 방법 및 시스템
KR20220109183A (ko) 2021-01-28 2022-08-04 이세중 워딩 판별 방법 및 특정어 검색 시스템
KR20220109943A (ko) 2021-01-29 2022-08-05 이세중 워딩 판별 방법 및 특정어 검색 시스템

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105022840B (zh) * 2015-08-18 2018-06-05 新华网股份有限公司 一种新闻信息处理方法、新闻推荐方法和相关装置
CN106227740A (zh) * 2016-07-12 2016-12-14 北京光年无限科技有限公司 一种面向对话系统的数据处理方法及装置
WO2018068664A1 (zh) * 2016-10-13 2018-04-19 腾讯科技(深圳)有限公司 网络信息识别方法和装置
CN108024148B (zh) * 2016-10-31 2020-02-28 腾讯科技(深圳)有限公司 基于行为特征的多媒体文件识别方法、处理方法及装置
IL258689A (en) 2018-04-12 2018-05-31 Browarnik Abel A system and method for computerized semantic indexing and searching
CN109086394B (zh) * 2018-07-27 2020-07-14 北京字节跳动网络技术有限公司 搜索排序方法、装置、计算机设备和存储介质
CN110929085B (zh) * 2019-11-14 2023-12-19 国家电网有限公司 基于元语义分解的电力客服留言生成模型样本处理系统及方法

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6990628B1 (en) * 1999-06-14 2006-01-24 Yahoo! Inc. Method and apparatus for measuring similarity among electronic documents
JP3974511B2 (ja) * 2002-12-19 2007-09-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報検索のためのデータ構造を生成するコンピュータ・システム、そのための方法、情報検索のためのデータ構造を生成するコンピュータ実行可能なプログラム、情報検索のためのデータ構造を生成するコンピュータ実行可能なプログラムを記憶したコンピュータ可読な記憶媒体、情報検索システム、およびグラフィカル・ユーザ・インタフェイス・システム
US20070136251A1 (en) * 2003-08-21 2007-06-14 Idilia Inc. System and Method for Processing a Query
CN100495392C (zh) * 2003-12-29 2009-06-03 西安迪戈科技有限责任公司 一种智能搜索方法
US8775459B2 (en) * 2005-01-07 2014-07-08 International Business Machines Corporation Method and apparatus for robust input interpretation by conversation systems
EP1854030A2 (en) 2005-01-28 2007-11-14 Aol Llc Web query classification
US20080195601A1 (en) * 2005-04-14 2008-08-14 The Regents Of The University Of California Method For Information Retrieval
US8370125B2 (en) * 2006-01-13 2013-02-05 Research In Motion Limited Handheld electronic device and method for disambiguation of text input providing artificial variants comprised of characters in a core alphabet
US8175394B2 (en) * 2006-09-08 2012-05-08 Google Inc. Shape clustering in post optical character recognition processing
US8019748B1 (en) 2007-11-14 2011-09-13 Google Inc. Web search refinement
KR100993845B1 (ko) 2007-12-28 2010-11-12 한양대학교 산학협력단 개인화된 의미 기반 웹 문서 추천 시스템 및 그 방법
US20100306249A1 (en) * 2009-05-27 2010-12-02 James Hill Social network systems and methods
US20110022598A1 (en) * 2009-07-24 2011-01-27 Yahoo! Inc. Mixing knowledge sources for improved entity extraction
US8499008B2 (en) * 2009-07-24 2013-07-30 Yahoo! Inc. Mixing knowledge sources with auto learning for improved entity extraction
KR101377459B1 (ko) * 2009-12-21 2014-03-26 한국전자통신연구원 자동 통역 장치 및 그 방법
US8666998B2 (en) * 2010-09-14 2014-03-04 International Business Machines Corporation Handling data sets
KR101369931B1 (ko) 2010-11-17 2014-03-04 주식회사 케이티 하이브리드 시맨틱 검색 시스템 및 방법
US20120278297A1 (en) * 2011-04-29 2012-11-01 Microsoft Corporation Semi-supervised truth discovery
KR20130060720A (ko) * 2011-11-30 2013-06-10 한국전자통신연구원 목적 기반 시맨틱 서비스 디스커버리를 위한 서비스 목적 해석 장치 및 방법
US8249876B1 (en) * 2012-01-03 2012-08-21 Google Inc. Method for providing alternative interpretations of a voice input to a user
US20130185314A1 (en) * 2012-01-16 2013-07-18 Microsoft Corporation Generating scoring functions using transfer learning
US9183511B2 (en) * 2012-02-24 2015-11-10 Ming Li System and method for universal translating from natural language questions to structured queries
US10282419B2 (en) * 2012-12-12 2019-05-07 Nuance Communications, Inc. Multi-domain natural language processing architecture
US20140244560A1 (en) * 2013-02-22 2014-08-28 Google Inc. Engagement and Experience Based Ranking
US10229167B2 (en) * 2013-02-27 2019-03-12 Facebook, Inc. Ranking data items based on received input and user context information

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180101955A (ko) 2017-03-06 2018-09-14 주식회사 수브이 문헌 스코어링 방법 및 문헌 검색 시스템
KR20180101956A (ko) 2017-03-06 2018-09-14 주식회사 수브이 문헌 스코어링 방법
WO2019074191A1 (ko) * 2017-10-13 2019-04-18 고려대학교 산학협력단 암 치료 예측결과 제공 방법 및 시스템, 인공 지능망 기반 치료 예측 결과 제공 방법 및 시스템, 그리고 치료 예측결과 및 근거 자료 일괄 제공 방법 및 시스템
KR20220109183A (ko) 2021-01-28 2022-08-04 이세중 워딩 판별 방법 및 특정어 검색 시스템
KR20220109943A (ko) 2021-01-29 2022-08-05 이세중 워딩 판별 방법 및 특정어 검색 시스템

Also Published As

Publication number Publication date
US9268767B2 (en) 2016-02-23
US20140258322A1 (en) 2014-09-11

Similar Documents

Publication Publication Date Title
KR20140109729A (ko) 의미기반 검색 시스템 및 이의 검색방법
US9384245B2 (en) Method and system for assessing relevant properties of work contexts for use by information services
Hasan et al. Dominance of AI and Machine Learning Techniques in Hybrid Movie Recommendation System Applying Text-to-number Conversion and Cosine Similarity Approaches
US8341147B2 (en) Blending mobile search results
US8001152B1 (en) Method and system for semantic affinity search
US7895595B2 (en) Automatic method and system for formulating and transforming representations of context used by information services
US20050060290A1 (en) Automatic query routing and rank configuration for search queries in an information retrieval system
US9251249B2 (en) Entity summarization and comparison
CN109918555B (zh) 用于提供搜索建议的方法、装置、设备和介质
CN110147494B (zh) 信息搜索方法、装置,存储介质及电子设备
US20230147941A1 (en) Method, apparatus and device used to search for content
CN111753167B (zh) 搜索处理方法、装置、计算机设备和介质
KR102371437B1 (ko) 엔티티를 추천하는 방법과 장치, 전자기기 및 컴퓨터 판독가능 매체
KR20140075428A (ko) 시맨틱 검색 키워드 추천 방법 및 시스템
CN112912873A (zh) 动态地抑制搜索中的查询答复
US8364672B2 (en) Concept disambiguation via search engine search results
KR102285232B1 (ko) 형태소 기반 ai 챗봇 및 그의 문장의도 결정 방법
US9152698B1 (en) Substitute term identification based on over-represented terms identification
CN114116997A (zh) 知识问答方法、装置、电子设备及存储介质
Maliaroudakis et al. ClaimLinker: Linking text to a knowledge graph of fact-checked claims
KR20140091375A (ko) 사용자 질의 확장 기법을 이용한 시맨틱 콘텐츠 검색 시스템 및 방법
US8001122B2 (en) Relating similar terms for information retrieval
WO2020079752A1 (ja) 文献検索方法および文献検索システム
CN115630144A (zh) 一种文档搜索方法、装置及相关设备
US20230143777A1 (en) Semantics-aware hybrid encoder for improved related conversations

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination