KR20140109729A

KR20140109729A - 의미기반 검색 시스템 및 이의 검색방법

Info

Publication number: KR20140109729A
Application number: KR1020130024090A
Authority: KR
Inventors: 김형우; 조준면; 이무훈
Original assignee: 한국전자통신연구원
Priority date: 2013-03-06
Filing date: 2013-03-06
Publication date: 2014-09-16
Also published as: US9268767B2; US20140258322A1

Abstract

본 발명은 사용자의 키워드 입력에 따른 복수 개의 해석 대안이 검색될 경우 사용자의 선호도를 고려하여 해석 대안들을 랭킹하여 검색의 정밀성을 향상시키는 의미기반 검색 시스템 및 이의 검색 방법에 관한 것이다. 본 발명에 따른 의미기반 검색 시스템은 일반 상식에 해당되는 지식을 저장한 공통 로그 및 사용자의 선호도를 반영하여 저장한 사용자 로그를 생성하는 로그생성부와, 사용자로부터 입력된 키워드에 따른 해석 대안들 중 인스턴스에 해당되는 벡터 특성을 분석하는 인스턴스 분석부와, 공통 로그 및 사용자 로그 중 적어도 어느 하나에 대해 인스턴스의 벡터 특성을 포함한 해석 대안들의 신뢰도 값 및 코사인 유사도 값에 대한 가중치를 산출하는 가중치 산출부와, 신뢰도 값 및 코사인 유사도 값의 가중치 산출에 기반하여 키워드의 입력에 따른 해석 대안들의 랭킹을 정렬하는 정렬부를 포함하는 것을 특징으로 한다. 이에 의하여, 신뢰도 값 및 코사인 유사도 값의 가중치 산출에 따른 사용자 키워드 검색에 따른 해석 대안들을 사용자 선호도를 반영하여 랭킹으로 정렬할 수 있으므로, 사용자의 검색 만족도를 향상시킬 수 있다.

Description

의미기반 검색 시스템 및 이의 검색방법{SYSTEM FOR SEARCHING SEMANTIC AND SEARCHING METHOD THEREOF}

본 발명은 의미기반 검색 시스템 및 이의 검색방법에 관한 것으로서, 보다 상세하게는 키워드 입력에 따라 키워드의 해석 대안들 제공하는 의미기반 검색 시스템 및 이의 검색방법에 관한 것이다.

기존의 웹 검색 엔진의 검색 방식에서는 사용자가 검색하고자 하는 키워드를 입력할 때, 검색문(또는 컨텐츠)의 내용 또는 검색문에 부가된 메타데이터(meta-data) 내에서 키워드와 일치하는 키워드를 나타내는 검색문을 검색하였다. 이렇게, 검색문의 검색은 키워드의 입력에 따라 키워드에 일치하는 검색문을 검색하기 때문에 키워드 간의 관계로 표현되는 검색문의 의미를 해석할 필요가 없었다.

그러나, 최근에 들어 기존 키워드 일치 기반의 검색 방식은 단순한 검색에 따른 한계에 봉착하여 의미기반 검색(semantic search) 방식이 연구되고 있다. 여기서, 의미기반 검색방식은 입력된 키워드들이 나타내는 개체 간의 관계를 기반으로 검색문의 의미를 해석하고 해석과 일치하는 자료를 검색하는 검색방식이다.

또한, 최근 들어 사용자가 검색 응용을 실행하는 단말장치들은 PC(personal computer) 이외에도 스마트폰, 태블릿PC 및 스마트TV 등과 같이 문장 입력 인터페이스에 제약이 있는 단말장치들로 확대되고 있다. 이러한 단말장치들의 단말 환경에서는 키워드를 입력하는 전용 키보드의 부재에 따라 작은 화면에 표시된 쿼티 자판 등을 통해 검색문을 입력한다. 최근 들어 확대된 단말장치들은 작은 화면에 표시된 쿼티 자판 등을 통해 키워드를 입력함에 따라 자판 입력 횟수를 최소화하기 위해 완전한 자연어 문장을 입력하기 보다는 동사 등을 누락하고 핵심어만 입력한다. 이렇게, 제한적인 입력 환경에 따른 입력 방식은 핵심어만 입력된 경우 문장 구조에 관한 정보가 없어 의미 해석을 어렵게 한다.

한편, 의미기반 검색방식을 사용하는 종래의 의미기반 검색 시스템은 "대한민국특허공개공보 제10-2012-0053253호"인 "하이브리드 시맨틱 검색시스템 및 방법"이 개시되어 있다.

상술한 선행문헌인 "하이브리드 시맨틱 검색시스템 및 방법"은 사용자 단말로부터 수신한 질의어의 유형을 판단하는 단계, 질의어가 사용자에 의해 입력된 자유 질의어인 경우 질의어에 대하여 키워드 검색을 수행하는 단계, 질의어에 대한 키워드 검색 결과에 기초하여 질의어에 대한 의미기반 검색 여부를 판단하고 판단에 기초하여 질의어에 대하여 온톨로지(ontology)를 이용한 의미기반 검색을 수행하는 단계 및 수행한 의미기반 검색 결과를 사용자 단말에 제공하는 단계를 포함하는 기술적 특징을 가진다.

그런데, 종래의 선행문헌에 개시된 "하이브리드 시맨틱 검색시스템 및 방법은"은 사용자가 입력한 키워드의 개수를 고정시키고 이때 각 키워드가 매핑될 수 있는 지식 베이스 개체의 종류, 예를 들어 인스턴스(instance), 특성(property) 및 클래스(class)의 수의 조합에 따른 경우에 대해 지식 베이스에서 일치하는 부분 그래프를 탐색함으로써, 사용자가 실질적으로 검색을 하고자 하는 키워드의 해석 대안들을 정확히 도출하기 어려운 문제점이 있다.

대한민국공개특허공보 제10-2012-0053253호: 하이브리드 시맨틱 검색시스템 및 방법

본 발명의 목적은 사용자의 키워드 입력에 따른 복수 개의 해석 대안이 검색될 경우 사용자의 선호도를 고려하고 해석 대안들을 랭킹하여 검색의 정밀성을 향상시키는 의미기반 검색 시스템 및 이의 검색방법을 제공하는 것이다.

상기 과제의 해결 수단은, 본 발명에 따라 일반 상식에 해당되는 지식을 저장한 공통 로그 및 사용자의 선호도를 반영하여 저장한 사용자 로그를 생성하는 로그생성부와, 사용자로부터 입력된 키워드에 따른 해석 대안들 중 인스턴스에 해당되는 벡터 특성을 분석하는 인스턴스 분석부와, 상기 공통 로그 및 상기 사용자 로그 중 적어도 어느 하나에 대해 상기 인스턴스의 벡터 특성을 포함한 해석 대안들의 신뢰도 값 및 코사인 유사도 값에 대한 가중치를 산출하는 가중치 산출부와, 상기 신뢰도 값 및 상기 코사인 유사도 값의 가중치 산출에 기반하여 상기 키워드의 입력에 따른 해석 대안들의 랭킹을 정렬하는 정렬부를 포함하는 것을 특징으로 하는 의미기반 검색 시스템에 의해 이루어진다.

여기서, 상기 신뢰도 값은 상기 공통 로그와 해석 대안 사이의 신뢰도 값 및 상기 사용자 로그와 해석 대안 사이의 신뢰도 값을 포함할 수 있다.

그리고, 상기 코사인 유사도 값은 상기 사용자 로그와 해석 대안 사이의 코사인 유사도 값을 포함할 수 있다.

상기 가중치 산출부는 순차적으로 상기 공통 로그와 해석 대안 사이의 신뢰도 값, 상기 사용자 로그와 해석 대안 사이의 신뢰도 값 및 상기 사용자 로그와 해석 대안 사이의 코사인 유사도 값에 가중치를 산출하는 것이 바람직하다.

상기 의미기반 검색 시스템은 상기 공통 로그에 저장되는 일반 상식에 해당되는 지식이 저장된 데이터 베이스부를 더 포함할 수 있다.

상기 공통로그가 복수 개의 해석 대안을 가질 경우, 상기 공통로그와 해석 대안 사이의 신뢰도 값에 대한 가중치 산출은 반영하지 않는 것이 바람직하다.

상기 사용자 로그는 사용자가 검색했던 검색 기록을 포함할 수 있다.

한편, 상기 과제의 해결 수단은, 본 발명에 따라 (a) 사용자가 검색했던 정보를 사용자 선호도로 반영하여 저장한 사용자 로그를 생성하는 단계와, (b) 사용자가 키워드를 입력하면 일반적인 상식에 해당하는 지식을 저장한 공통로그를 생성하는 단계와, (c) 상기 키워드의 입력에 따른 해석 대안들 중 인스턴스에 해당하는 벡터 특성을 분석하는 단계와, (d) 상기 공통로그 및 상기 사용자 로그 중 적어도 어느 하나에 대해 상기 인스턴스의 벡터 특성을 포함한 해석 대안들의 신뢰도 값 및 코사인 유사도 값에 대한 가중치를 산출하는 단계와, (e) 상기 신뢰도 값 및 상기 코사인 유사도 값의 가중치 산출에 기반하여 상기 키워드의 입력에 따른 해석 대안들의 랭킹을 정렬하는 단계를 포함하는 것을 특징으로 하는 의미기반 검색 시스템의 검색방법에 의해서도 이루어진다.

상기 (d) 단계는 상기 공통 로그와 해석 대안 사이의 신뢰도 값, 상기 사용자 로그와 해석 대안 사이의 신뢰도 값 및 상기 사용자 로그와 해석 대안 사이의 코사인 유사도 값에 대한 가중치 산출이 순차적으로 이루어지는 것이 바람직하다.

또한, 바람직하게 상기 (d) 단계는 상기 (c) 단계에서 상기 키워드의 입력에 따른 해석대안이 복수 개일 때, 상기 사용자 로그와 해석 대안 사이의 신뢰도 값 및 상기 사용자 로그와 해석 대안 사이의 코사인 유사도 값에 대한 가중치 산출이 순차적으로 이루어질 수 있다.

상기 (a) 단계는 사용자가 특정 검색어를 입력하는 단계와, 상기 특정 검색어 입력에 따른 해석 결과 중 인스턴스의 특성을 분석하여 분석된 내용을 포함하는 사용자의 상기 특정 검색어를 상기 사용자 로그에 저장하는 단계를 포함할 수 있다.

상기 (b) 단계는 상기 의미기반 검색 시스템은 일반 상식에 해당되는 지식이 저장된 데이터 베이스부를 포함하며, 상기 공통 로그는 사용자가 상기 키워드를 입력할 때 상기 데이터 베이스부로부터 상기 키워드에 해당되는 정보를 추출하여 저장하는 것이 바람직하다.

기타 실시 예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.

본 발명에 따른 의미기반 검색 시스템 및 이의 검색방법은 다음과 같은 효과가 있다.

첫째, 신뢰도 값 및 코사인 유사도 값의 가중치 산출에 따른 사용자 키워드 검색에 따른 해석 대안들을 사용자 선호도를 반영하여 랭킹으로 정렬할 수 있고, 이에 따라 사용자의 검색 만족도를 향상시킬 수 있다.

둘째, 과거에 사용자가 검색 이력이 없을 때 일반적인 상식을 포함한 공통 로그를 이용하여 해석 대안들을 검색할 수 있다.

도 1은 본 발명에 따른 의미기반 검색 시스템의 제어 블록도,
도 2의 (a) 및 (b)는 도 1에 도시된 가중치 산출부에서 해석 대안들의 신뢰도 값을 산출하는 알고리즘,
도 3의 (a) 및 (b)는 도 1에 도시된 가중치 산출부에서 해석 대안들의 코사인 유사도 값을 산출하는 알고리즘 및 공통 로그와 사용자 로그들에 대한 신뢰도 값과 코사인 유사도 값의 정확도를 나타낸 표,
도 4는 본 발명에 따른 의미기반 검색 시스템의 검색 방법의 절차를 도시한 흐름도,
도 5는 본 발명에 따른 의미기반 검색 시스템의 검색 방법에서 사용자 로그를 생성하는 순서도,
도 6은 본 발명에 따른 의미기반 검색 시스템의 검색 방법에 대한 순서도이다.

이하, 본 발명의 실시 예에 따른 의미기반 검색 시스템 및 이의 검색방법에 대해 첨부된 도면을 참조하여 상세히 설명한다.

설명하기에 앞서, 이하에서 설명되는 해석 대안은 사용자가 검색하고자 하는 검색문(또는 컨텐츠)에 연관된 키워드를 입력할 때 검색되는 검색물임을 미리 밝혀둔다.

도 1은 본 발명에 따른 의미기반 검색 시스템의 제어 블록도이다.

도 1에 도시된 바와 같이, 본 발명에 따른 의미기반 검색 시스템(1)은 로그생성부(10), 데이터 베이스부(20), 인스턴스 분석부(30), 가중치 산출부(50) 및 정렬부(70)를 포함한다.

로그생성부(10)는 일반 상식에 해당되는 지식을 저장한 공통 로그 및 사용자 선호도를 반영하여 저장한 사용자 로그를 생성한다. 로그생성부(10)는 사용자가 키워드를 입력할 때 데이터 베이스부(20)에 저장된 지식 정보를 이용하여 공통로그를 생성하고, 사용자가 과거에 이용한 정보를 이용하여 사용자 로그를 생성한다.

데이터 베이스부(20)는 공통 로그에 저장되는 일반 상식에 해당되는 지식을 저장한다. 데이터 베이스부(20)는 크게 확장할 때 인터넷망에서 정보를 제공하는 서버로 볼 수 있다. 데이터 베이스부(20)에 저장된 지식 정보는 사용자의 키워드 입력에 따라 인스턴스 분석에 사용될 수 있다.

인스턴스 분석부(30)는 사용자로부터 입력된 키워드에 따른 해석 대안들 중 인스턴스(객체 지향 프로그래밍에서 어떤 클래스에 속하는 각 개체를 의미)에 해당되는 벡터 특성을 분석한다. 인스턴스 분석부(30)에 의해 분석되는 벡터 특성은 데이터 베이스부(20)에 저장된 인스턴스의 정보에 따라 다양한 가중치를 가질 수 있다.

예를 들어, 인스턴스 벡터 특성은 'A'의 인물이 입력되었을 때 'A'에 대한 인스턴스의 특성 벡터를 분석한다. 상세히 설명하면, 'A'가 연출한 영화 7편, 출연한 영화 2편, 제작한 영화 1편이 검색될 때 인스턴스 벡터의 특성은 {[영화배우, 0.7], [영화감독, 0.2], [제작자 0.1]}이 된다. 반면, 'B'의 인물이 입력될 때 'B'가 출연한 영화 3편이 검색되면, 인스턴스 벡터의 특성은 {[영화배우, 1]}이 된다.

한편, 실질적으로 상술한 공통 로그와 사용자 로그는 인스턴스 분석을 통해서 이루어진다. 공통 로그는 "{영화배우, 1} {출연} {영화}" 및 "{영화배우, 1} {연출} {영화}"와 같은 일반적인 지식이 포함될 때, 'B'의 인물이 입력될 때 출연한 영화가 가장 바람직한 해석 대안이 될 수 있다. 그러나, 공통 로그는 인스턴스의 벡터 특성이"{영화감독 0.5}, {영화배우 0.5} {연출} {영화}"와 같이 "영화감독이면서 영화배우인 인스턴스가 연출한 영화"와 같은 해석 대안은 사용자의 선호에 따라 달라질 수 있으므로 공통 로그에 명시하지 않는다.

다음으로 사용자 로그는 해당 사용자가 과거 사용했던 키워드를 저장하는 로그로서 사용자의 선호도를 반영하기 위해 사용된다. 예를 들어, 사용자 로그는 사용자가 과거 "C 연출 영화"를 키워드로 입력한 경우, 인스턴스 분석부의 인스턴스 분석 과정을 거쳐 "{영화감독, 0.5} {영화배우, 0.5} {연출} {영화}"가 저장될 수 있다. 향후, 사용자가 C와 유사한 D의 특성을 나타내는 인스턴스를 키워드로 입력하였을 때, 과거 사용자 로그에 있는 {연출}이 {출연} 또는 {제작}과 같은 프러퍼티(특성) 보다 높은 가중치를 갖도록 사용된다.

다음으로 도 2의 (a) 및 (b)는 도 1에 도시된 가중치 산출부에서 해석 대안들의 신뢰도 값을 산출하는 알고리즘이고, 도 3의 (a) 및 (b)는 도 1에 도시된 가중치 산출부에서 해석 대안들의 코사인 유사도 값을 산출하는 알고리즘 및 공통 로그와 사용자 로그들에 대한 신뢰도 값과 코사인 유사도 값의 정확도를 나타낸 표이다.

도 2 및 도 3에 도시된 바와 같이, 가중치 산출부(50)는 공통 로그 및 사용자 로그 중 적어도 어느 하나에 대해 인스턴스의 벡터 특성을 포함한 해석 대안들의 신뢰도 값 및 코사인 유사도 값에 대한 가중치를 산출한다. 본 발명의 일 실시 예로서, 가중치 산출부(50)는 신뢰도 값의 가중치를 산출하는 제1산출부(52) 및 코사인 유사도 값의 가중치를 산출하는 제2산출부(54)를 포함한다.

가중치 산출부(50)는 공통로그와 사용자 로그에 대해서 해석 대안의 가중치를 산출하기 위하여 기존 데이터 마이닝(data-mining)이나 정보 검색 분야에서 사용되는 다양한 산출법을 이용할 수 있다. 본 발명의 일 실시 예로서, 가중치 산출부(50)는 신뢰도(confidence) 값과 코사인 유사도(cosine similarity) 값을 이용하여 해석 대안들의 가중치를 산출한다.

여기서, 기존에 연관규칙 마이닝 기법에 의해 산출되는 신뢰도 값은 도 2의 (a)에 도시되어 있다.

예를 들어, 사용자의 키워드 입력에 따라 사용자 로그가 2개 생성된다. 이때, 사용자의 키워드 입력에 따른 해석 대안의 신뢰도 값이 동일하게 산출된다. 이렇게 신뢰도 값이 동일하게 산출되기 때문에 사용자의 선호도가 반영되지 못 하는 문제점이 있다. 즉, 인스턴스의 벡터 특성 분석으로 나온 가중치(예; 영화감독 0.8과 배우 0.2 및 영화감독 0.1과 배우 0.9)를 반영하지 못하기 때문에 사용자의 선호도가 반영되지 않는다.

그런데, 도 2의 (b)의 수정된 신뢰도 값은 산출은 인스턴스의 벡터 특성 분석으로 나온 가중치와 키워드 입력에 따른 인스턴스를 곱하고, 각각의 곱한 값을 더한 후에 곱한 개수로 나누어서 신뢰도를 산출할 수 있다. 이렇게, 수정된 신뢰도 값의 산출 방식에 따라 신뢰도 값이 크기 값이 상대 비교될 수 있으므로, 사용자 선호도에 따른 해석 대안들의 랭킹을 정렬할 수 있다.

한편, 도 2의 (b)의 수정된 신뢰도 값에 따른 산출 방식은 각 요소들을 모두 포함하여야 신뢰도 값을 산출할 수 있으므로 정확도(precision)가 높지만, 요소 중 한 개라도 사용자 로그에 존재하지 않으면 값을 산출 할 수 없어 상대적으로 낮은 리콜(recall) 값을 갖게 되는 특성이 있다.

이에 따라, 가중치 산출부(50)는 도 3의 (a)에 따라 코사인 유사도 값을 산출한다. 코사인 유사도로 구한 해석 대안의 가중치는 두 벡터 사이의 모든 요소가 동일할 필요가 없으므로, 모든 해석 대안들에 대해 가중치를 계산할 수 있어 상대적으로 높은 리콜 값을 가질 수 있다. 또한, 벡터의 크기를 고려하기 때문에 해석 대안의 길이가 길수록 가중치가 줄어드는 특성을 가지고 있다.

도 3의 (a)는 공통 로그와 해석 대안 사이의 신뢰도 값 및 사용자 로그와 해석 대안 사이의 신뢰도 값과 코사인 유사도 값을 적용하여 가중치를 산출할 때 갖게 되는 특성을 표로 나타내고 있다. 공통 로그의 특성 상 코사인 유사도 값으로 구한 해석 대안의 가중치는 정확도와 리콜이 모두 낮아지는 특성을 보이기 때문에 가중치를 산출하는 것이 부적절한 것으로 판단된다. 그러므로, 본 발명의 가중치 산출부(50)는 사용자 로그와 해석 대안 사이의 코사인 유사도 값만 가중치로 산출한다.

정렬부(70)는 신뢰도 값 및 코사인 유사도 값의 가중치 산출에 기반하여 사용자의 키워드 입력에 따른 해석 대안들의 랭킹을 정렬한다. 상세하게, 정렬부(70)는 사용자 선호도를 고려하여 신뢰도 값을 및 코사인 유사도 값의 가중치를 산출하여 해석 대안들의 랭킹을 정렬한다. 즉, 정렬부(70)는 가중치 산출부(50)에서 산출된 공통 로그와 해석 대안 사이의 신뢰도 값, 사용자 로그와 해석 대안 사이의 신뢰도 값 및 사용자 로그와 해석 대안 사이의 코사인 유사도 값을 기초로 하여 해석 대안들의 랭킹을 정렬한다.

다음으로 도 4는 본 발명에 따른 의미기반 검색 시스템의 검색 방법의 절차를 도시한 흐름도, 도 5는 본 발명에 따른 의미기반 검색 시스템의 검색 방법에서 사용자 로그를 생성하는 순서도, 그리고 도 6은 본 발명에 따른 의미기반 검색 시스템의 검색 방법에 대한 순서도이다.

도 4 내지 도 6에 도시된 바와 같이, 본 발명에 따른 의미기반 검색 시스템(1)의 검색 방법은 다음과 같다.

도 4에 도시된 바와 같이, 의미기반 검색 시스템(1)은 해석 대안들의 랭킹을 정렬할 때, 사용자로부터 키워드가 입력되면 공통 로그와 해석 대안 사이의 신뢰도 값, 사용자 로그와 해석 대안 사이의 신뢰도 값 및 사용자 로그와 해석 대안 사이의 코사인 유사도 값을 순차적으로 산출하여 해석 대안들의 랭킹을 정렬한다.

한편, 도 5에 도시된 바와 같이, 사용자 선호도를 랭킹 정렬하기 위해 사용되는 사용자 로그는 다음과 같다.

우선, 사용자 로그를 생성하는 것은 과거에 사용자가 입력했던 키워드를 통해 이루어진다.

사용자는 검색하고자 하는 키워드를 입력한다(S10). 사용자가 키워드를 입력하면 키워드 입력에 따른 컨텐츠를 검색한다(S30). 이때, 키워드 입력이 될 때 인스턴스의 벡터 특성을 분석하여 컨텐츠를 검색한다. 사용자에 의해 소비된 컨텐츠를 저장하여 사용자 선호도에 따른 해석 대안들의 랭킹을 정렬할 수 있도록 사용자 로그를 생성한다(S50).

마지막으로 본 발명에 따른 의미기반 검색 시스템(1)의 검색 방법은 도 6을 참조하여 이하에서 설명한다.

우선적으로 도 5에 도시된 사용자 로그를 생성하는 단계(S10 내지 S50)를 수행하여 사용자 로그를 생성한다(S100). 사용자 키워드 입력에 따라 공통 로그를 생성한다(S120). 여기서, 공통 로그는 인스턴스의 벡터 특성에 따라 사용되지 않을 수도 있다.

인스턴스 분석을 통해 인스턴스의 벡터 특성을 분석한다(S160). 공통 로그와 사용자 로그 중 적어도 어느 하나에 대해 인스턴스의 벡터 특성을 포함한 해석 대안들의 신뢰도 값 및 코사인 유사도 값에 대한 가중치를 산출한다(S160). 이때, 공통 로그와 해석 대안 사이의 신뢰도 값, 사용자 로그와 해석 대안 사이의 신뢰도 값 및 사용자 로그와 해석 대안 사이의 코사인 유사도 값에 대한 가중치 산출은 순차적으로 이루어진다. 공통 로그와 해석 대안 사이의 신뢰도 값, 사용자 로그와 해석 대안 사이의 신뢰도 값 및 사용자 로그와 해석 대안 사이의 코사인 유사도 값에 기반하여 검색된 해석 대안들을 사용자 선호도에 따른 랭킹으로 정렬한다(S180).

그리고, 'S180 단계'에서 랭킹 정렬된 해석대안들로 컨텐츠를 검색한다(S200). 최종적으로 사용자에게 검색결과를 제공한다(S220).

이에, 신뢰도 값 및 코사인 유사도 값의 가중치 산출에 따른 사용자 키워드 검색에 따른 해석 대안들을 사용자 선호도를 반영하여 랭킹으로 정렬할 수 있고, 이에 따라 사용자의 검색 만족도를 향상시킬 수 있다.

또한, 과거에 사용자가 검색 이력이 없을 때 일반적인 상식을 포함한 공통 로그를 이용하여 해석 대안들을 검색할 수 있다.

이상 첨부된 도면을 참조하여 본 발명의 실시 예들을 설명하였지만, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명의 그 기술적 사상이나 필수적인 특징들이 변경되지 않고서 다른 구체적인 형태로 실시될 수 있다는 것으로 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

1: 의미기반 검색 시스템 10: 로그생성부
20: 데이터 베이스부 30: 인스턴스 분석부
50: 가중치 산출부 52: 제1산출부
54: 제2산출부 70: 정렬부

Claims

일반 상식에 해당되는 지식을 저장한 공통 로그 및 사용자의 선호도를 반영하여 저장한 사용자 로그를 생성하는 로그생성부와;
사용자로부터 입력된 키워드에 따른 해석 대안들 중 인스턴스에 해당되는 벡터 특성을 분석하는 인스턴스 분석부와;
상기 공통 로그 및 상기 사용자 로그 중 적어도 어느 하나에 대해 상기 인스턴스의 벡터 특성을 포함한 해석 대안들의 신뢰도 값 및 코사인 유사도 값에 대한 가중치를 산출하는 가중치 산출부와;
상기 신뢰도 값 및 상기 코사인 유사도 값의 가중치 산출에 기반하여, 상기 키워드의 입력에 따른 해석 대안들의 랭킹을 정렬하는 정렬부를 포함하는 것을 특징으로 하는 의미기반 검색 시스템.
제1항에 있어서,
상기 신뢰도 값은,
상기 공통 로그와 해석 대안 사이의 신뢰도 값 및 상기 사용자 로그와 해석 대안 사이의 신뢰도 값을 포함하는 것을 특징으로 하는 의미기반 검색 시스템.
제2항에 있어서,
상기 코사인 유사도 값은 상기 사용자 로그와 해석 대안 사이의 코사인 유사도 값을 포함하는 것을 특징으로 하는 의미기반 검색 시스템.
제3항에 있어서,
상기 가중치 산출부는 순차적으로 상기 공통 로그와 해석 대안 사이의 신뢰도 값, 상기 사용자 로그와 해석 대안 사이의 신뢰도 값 및 상기 사용자 로그와 해석 대안 사이의 코사인 유사도 값에 가중치를 산출하는 것을 특징으로 하는 의미기반 검색 시스템.
제1항에 있어서,
상기 의미기반 검색 시스템은,
상기 공통 로그에 저장되는 일반 상식에 해당되는 지식이 저장된 데이터 베이스부를 더 포함하는 것을 특징으로 하는 의미기반 검색 시스템.
제4항에 있어서,
상기 공통로그가 복수 개의 해석 대안을 가질 경우, 상기 공통로그와 해석 대안 사이의 신뢰도 값에 대한 가중치 산출은 반영하지 않는 것을 특징으로 하는 의미기반 검색 시스템.
제1항에 있어서,
상기 사용자 로그는 사용자가 검색했던 검색 기록을 포함하는 것을 특징으로 하는 의미기반 검색 시스템.
(a) 사용자가 검색했던 정보를 사용자 선호도로 반영하여 저장한 사용자 로그를 생성하는 단계와;
(b) 사용자가 키워드를 입력하면 일반적인 상식에 해당하는 지식을 저장한 공통로그를 생성하는 단계와;
(c) 상기 키워드의 입력에 따른 해석 대안들 중 인스턴스에 해당하는 벡터 특성을 분석하는 단계와;
(d) 상기 공통로그 및 상기 사용자 로그 중 적어도 어느 하나에 대해 상기 인스턴스의 벡터 특성을 포함한 해석 대안들의 신뢰도 값 및 코사인 유사도 값에 대한 가중치를 산출하는 단계와;
(e) 상기 신뢰도 값 및 상기 코사인 유사도 값의 가중치 산출에 기반하여, 상기 키워드의 입력에 따른 해석 대안들의 랭킹을 정렬하는 단계를 포함하는 것을 특징으로 하는 의미기반 검색 시스템의 검색방법.
제8항에 있어서,
상기 신뢰도 값은,
상기 공통 로그와 해석 대안 사이의 신뢰도 값 및 상기 사용자 로그와 해석 대안 사이의 신뢰도 값을 포함하는 것을 특징으로 하는 의미기반 검색 시스템의 검색방법.
제9항에 있어서,
상기 코사인 유사도 값은 상기 사용자 로그와 해석 대안 사이의 코사인 유사도 값을 포함하는 것을 특징으로 하는 의미기반 검색 시스템의 검색방법.
제10항에 있어서,
상기 (d) 단계는,
상기 공통 로그와 해석 대안 사이의 신뢰도 값, 상기 사용자 로그와 해석 대안 사이의 신뢰도 값 및 상기 사용자 로그와 해석 대안 사이의 코사인 유사도 값에 대한 가중치 산출이 순차적으로 이루어지는 것을 특징으로 하는 의미기반 검색 시스템의 검색방법.
제10항에 있어서,
상기 (d) 단계는,
상기 (c) 단계에서 상기 키워드의 입력에 따른 해석대안이 복수 개일 때, 상기 사용자 로그와 해석 대안 사이의 신뢰도 값 및 상기 사용자 로그와 해석 대안 사이의 코사인 유사도 값에 대한 가중치 산출이 순차적으로 이루어지는 것을 특징으로 하는 의미기반 검색 시스템의 검색방법.
제1항에 있어서,
상기 (a) 단계는,
사용자가 특정 검색어를 입력하는 단계와;
상기 특정 검색어 입력에 따른 해석 결과 중 인스턴스의 특성을 분석하여, 분석된 내용을 포함하는 사용자의 상기 특정 검색어를 상기 사용자 로그에 저장하는 단계를 포함하는 것을 특징으로 하는 의미기반 검색 시스템의 검색방법.
제1항에 있어서,
상기 (b) 단계는,
상기 의미기반 검색 시스템은 일반 상식에 해당되는 지식이 저장된 데이터 베이스부를 포함하며,
상기 공통 로그는 사용자가 상기 키워드를 입력할 때, 상기 데이터 베이스부로부터 상기 키워드에 해당되는 정보를 추출하여 저장하는 것을 특징으로 하는 의미기반 검색 시스템의 검색방법.