KR101524740B1 - 입력 방법 편집기 - Google Patents

입력 방법 편집기 Download PDF

Info

Publication number
KR101524740B1
KR101524740B1 KR1020117021894A KR20117021894A KR101524740B1 KR 101524740 B1 KR101524740 B1 KR 101524740B1 KR 1020117021894 A KR1020117021894 A KR 1020117021894A KR 20117021894 A KR20117021894 A KR 20117021894A KR 101524740 B1 KR101524740 B1 KR 101524740B1
Authority
KR
South Korea
Prior art keywords
nodes
character
graph
node
syllable
Prior art date
Application number
KR1020117021894A
Other languages
English (en)
Other versions
KR20120006489A (ko
Inventor
젠칭 우
샤오타오 두안
타이-이 후앙
Original Assignee
구글 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 인코포레이티드 filed Critical 구글 인코포레이티드
Publication of KR20120006489A publication Critical patent/KR20120006489A/ko
Application granted granted Critical
Publication of KR101524740B1 publication Critical patent/KR101524740B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/018Input/output arrangements for oriental characters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Document Processing Apparatus (AREA)

Abstract

제1 쓰기 체계로 된 문자소를 수신하고, 제1 쓰기 체계로 된 문자소에 기초하여 제2 쓰기 체계로 된 어휘 항목들을 식별하는 입력 편집기를 구비한 방법들, 시스템들, 및 컴퓨터 프로그램 제품들을 포함하는 장치들을 개시한다. 일 구현예에서는, 방법이 제공된다. 이 방법은 제1 쓰기 체계로 된 제1 문자소를 수신하는 단계; 제2 쓰기 체계로 된 제1 형태소에 대한 제1 쓰기 체계에서의 제1 n-그램 표현을 식별하기 위해 제1 쓰기 체계로 된 문자소들의 문자소 그래프를 사용하는 단계; 형태소 그래프에서 하나 이상의 제1 노드를 찾기 위해 상기 제1 n-그램 표현을 사용하는 단계; 상기 하나 이상의 제1 어휘 항목 각각에 연관된 제1 점수에 기초하여 상기 하나 이상의 제1 어휘 항목으로부터 하나의 제1 어휘 항목을 선택하는 단계; 및 상기 제1 어휘 항목을 사용자 디바이스 상에 디스플레이를 위하여 제공하는 단계를 포함한다.

Description

입력 방법 편집기{INPUT METHOD EDITOR}
본 명세서는 입력 방법들에 관한 것이다.
쓰기 체계(writing system)는 언어의 소리들을 표현하기 위해 기호들을 사용한다. 쓰기 체계 내에 있는 기호들의 집합은 스크립트로서 불릴 수 있다. 예를 들어, 하나 이상의 로마 스크립트로 된 로마자의 집합을 포함하는 라틴 쓰기 체계가 영어를 표현하기 위해 사용될 수 있다. 라틴 쓰기 체계는 블럭화된 로마자(예컨대, 대문자화된 "B" ), 타이핑된 로마자(예컨대, 평서 문자 "b"), 및 필기체 로마자(예컨대, 필기체 문자
Figure 112011072821028-pct00001
)를 포함한다. 문자 "b"에 대한 각 시각적 표현은 라틴 쓰기 체계에서 동일한 문자소(grapheme)를 표현한다.
다른 예시로서, 중국어는 하나 이상의 쓰기 체계에 의해 표현될 수 있다. 예를 들어, 중국어는 제1 쓰기 체계(예컨대, 병음(Pinyin), 즉 로마자화된 중국어)에 의해 표현될 수 있다. 다른 예시에서, 중국어는 제2 쓰기 체계(예컨대, 보포모포(bopomofo), 즉 주인 푸하오("Zhuyin"))을 사용하여 표현될 수 있다. 또 다른 실시예로서, 중국어는 제3 쓰기 체계(예컨대, 한지(Hanzi))를 사용하여 표현될 수 있다. 특히, 병음과 주인은 한지 문자를 표현하기 위한 표음식 체계(phonetic system)들이다.
일부 입력 방법들은 사용자가 제1 쓰기 체계로 된 텍스트를 입력할 수 있게 하고, 제2 쓰기 체계로 된 출력 후보들을 제공한다. 예를 들어, 병음 입력 방법은 사용자가 병음 스트링을 입력할 수 있게 하고, 한지로 된 출력 후보들을 생성할 수 있다. 병음 스트링은 하나 이상의 병음 음절을 포함할 수 있다. 병음 음절은 제2 서브-음절이 따라오는 제1 서브-음절(예컨대, 음절의 일부)을 포함할 수 있다. 각 병음 음절은 복수의 한지 문자에 상응하고, 각 서브-음절은 하나 이상의 로마자를 포함한다. 예를 들어, 병음 음절 "zhang"은 제1 서브-음절 "zh"과 제2 서비-음절 "ang"으로 분할될 수 있다. 또한, 서브-음절 "zh"와 "ang" 모두는 다른 병음 음절을 생성하기 위하여 다른 서브-음절과 조합될 수 있다. 예를 들어, 서브-음절 "zh"와 "a"는 병음 음절 "zha"을 생성하기 위해 조합될 수 있고, 서브-음절 "t"와 "ang"는 병음 음절 "tang"을 생성하기 위해 조합될 수 있다.
출력 후보들을 생성하는 것은 예를 들어, 입력 텍스트를 분할함으로써 입력텍스트에 있는 형태소들(예컨대, 음절들)의 식별을 요구할 수 있다.
본 명세서는 입력 방법들에 관한 기술들을 설명한다.
전반적으로, 본 명세서에서 설명된 주제의 일 양태는 제1 쓰기 체계로 된 제1 문자소(grapheme)를 수신하는 단계; 제2 쓰기 체계로 된 제1 형태소에 대한 제1 쓰기 체계에서의 제1 n-그램 표현(n-gram representation)을 식별하기 위해 제1 쓰기 체계로 된 문자소들의 문자소 그래프를 사용하는 단계―여기서, 제1 n-그램 표현은 제1 문자소를 포함함―; 형태소 그래프에서 하나 이상의 제1 노드를 찾기 위해 제1 n-그램 표현을 사용하는 단계―여기서, 형태소 그래프에서 찾은 제1 노드 각각은 제2 쓰기 체계로 된 하나 이상의 제1 어휘 항목(lexical item)을 표현하고, 하나 이상의 제1 어휘 항목 각각은 제1 n-그램 표현에 의해 표현됨―; 하나 이상의 제1 어휘 항목 각각에 연관된 제1 점수에 기초하여 하나 이상의 제1 어휘 항목으로부터 하나의 제1 어휘 항목을 선택하는 단계; 및 제1 어휘 항목을 사용자 디바이스 상에 디스플레이를 위하여 제공하는 단계의 동작들을 포함하는 방법들로 구현될 수 있다. 본 양태의 다른 실시예들은 상응하는 시스템들, 장치, 및 컴퓨터 프로그램 제품들을 포함한다.
이러한 및 다른 실시예들이 후술되는 특징들 중 하나 이상을 선택적으로 포함할 수 있다. 제1 문자소는 제2 쓰기 체계로 된 음절 일부만을 표현할 수 있다. 이 방법은 제1 쓰기 체계로 된 제2 문자소를 수신하는 단계; 제2 쓰기 체계로 된 제2 형태소에 대한 제1 쓰기 체계에서의 제2 n-그램 표현을 식별하기 위해 제1 쓰기 체계로 된 문자소들의 문자소 그래프를 사용하는 단계―여기서, 제2 n-그램 표현은 제2 문자소를 포함함―; 형태소 그래프에서 하나 이상의 제2 노드를 찾기 위해 제2 n-그램 표현을 사용하는 단계―여기서, 형태소 그래프에서 찾은 제2 노드 각각은 제2 쓰기 체계로 된 하나 이상의 제2 어휘 항목을 표현하고, 하나 이상의 제2 어휘 항목 각각은 제2 n-그램 표현에 의해 표현됨―; 제3 어휘 항목와 제4 어휘 항목으로 된 하나 이상의 순열(permutation)을 생성하는 단계―여기서, 제3 어휘 항목은 하나 이상의 제1 어휘 항목으로부터 선택되고, 상기 제4 어휘 항목은 하나 이상의 제2 어휘 항목으로부터 선택됨―; 하나 이상의 순열 각각에 연관된 제2 점수에 기초하여 하나 이상의 순열로부터 하나의 순열을 선택하는 단계―여기서, 선택된 순열은 제4 어휘 항목이 이어지는 제3 어휘 항목을 포함함―; 선택된 제1 어휘 항목의 제1 점수와 선택된 순열의 제2 점수를 비교하는 단계; 및 그 비교 결과에 기초하여, 선택된 제1 어휘 항목 또는 선택된 순열을 사용자 디바이스 상에 디스플레이를 위하여 제공하는 단계를 더 포함할 수 있다.
제1 문자소는 제2 문자소에 의해 부분적으로만 표현되는 제4 형태소와 다른 제3 형태소의 일부만을 표현한다. 문자소 그래프는 복수의 노드를 포함하고, 노드 각각은 제1 쓰기 체계로 된 문자소를 표현하고, 복수 노드의 진부분집합(proper subset of the plurality of nodes)에 있는 노드 각각은 전체 음절에 상응하고, 상응하는 전체 음절 각각은 문자소 그래프의 상응하는 노드의 문자소들과 상응하는 노드로부터 내려온 노드들의 문자소들을 포함한다. 제1 n-그램 표현은 노드들의 진부분집합에 있는 노드들 중 하나에 상응하는 전체 음절을 표현한다. 형태소 그래프는 복수 노드를 포함하고, 노드 각각은 제2 쓰기 체계로 된 하나 이상의 형태소를 표현하고, 복수 노드의 진부분집합에 있는 노드 각각은 어휘 항목에 상응하고, 상응하는 어휘 항목 각각은 형태소 그래프의 상응하는 노드의 형태소들과 상응하는 노드로부터 내려온 노드들의 형태소를 포함한다.
형태소는 한지 문자에 상응한다. 제1 n-그램 표현은 전체 병음 음절의 대표이고, 하나 이상의 어휘 항목(lexical item) 각각은 한지 용어(hanzi character)이다. 형태소 그래프에서 하나 이상의 노드를 찾기 위하여 제1 n-그램 표현을 사용하는 단계는 제1 n-그램 표현에 상응하는 문자소 그래프에 제1 노드의 식별자를 선택하는 단계; 및 식별자와 연관된 형태소 그래프에서 있는 제2 노드를 찾는 단계를 포함한다.
전반적으로, 본 명세서에서 설명된 주제의 다른 양태는 제1 로마자 입력을 수신하는 단계; 병음 입력 그래프에서 제1 병음 음절 노드를 찾기 위해 제1 로마자 입력을 사용하는 단계―병음 입력 그래프는 복수의 병음 음절 노드를 포함하고, 병음 음절 노드 각각은 하나의 로마자에 상응하고, 복수의 병음 음절 노드의 진부분집합에 있는 병음 음절 노드 각각은 하나의 병음 음절에 상응하고, 상응하는 병음 음절 각각은 병음 입력 그래프의 상응하는 병음 음절 노드의 로마자와 상응하는 병음 음절 노드로부터 내려온 병음 음절 노드들의 로마자를 포함함― ; 병음 음절 그래프에서 하나 이상의 제1 한지 문자 노드를 찾기 위해 찾은 병음 음절 노드를 사용하는 단계―병음 음절 그래프는 복수의 한지 문자 노드를 포함하고, 한지 문자 노드 각각은 하나의 병음 음절에 상응하고, 복수의 한지 문자 노드의 진부분집합에 있는 한지 문자 노드 각각은 하나 이상의 제1 한지 용어에 상응하고, 상응하는 하나 이상의 제1 한지 용어 각각은 병음 음절 그래프의 상응하는 한지 문자 노의 병음 음절들과 상응하는 한지 문자 노드로부터 내려온 한지 문자 노드의 병음 음절들에 상응하는 한지 문자들을 포함함―; 및 사용자 디바이스에 출력을 위하여, 하나 이상의 제1 한지 용어 각각에 연관된 제1 점수에 기초하여 하나 이상의 한지 문자 노드 중 하나에 상응하는 제1 한지 용어를 선택하는 단계의 동작을 포함하는 방법들로 구현될 수 있다. 본 양태의 다른 구현예들은 상응하는 시스템들, 장치, 및 컴퓨터 프로그램 제품을 포함한다.
이러한 및 다른 실시예들은 후술되는 특징 중 하나 이상을 선택적으로 포함할 수 있다. 이 방법은 제2 로마자 입력을 수신하는 단계; 병음 입력 그래프에서 제2 병음 음절 노드를 찾기 위하여 제2 로마자 입력을 사용하는 단계―여기서, 제2 병음 음절 노드는 제2 로마자 입력을 포함하는 병음 음절을 표현함―; 병음 음절 그래프에서 하나 이상의 제2 한지 문자 노드를 찾기 위하여 찾은 제2 병음 음절 노드를 사용하는 단계―여기서, 찾은 제2 한지 문자 노드 각각은 하나 이상의 제2 한지 용어에 상응함―; 제3 한지 용어와 제4 한지 용어로 된 하나 이상의 순열을 생성하는 단계―여기서, 제3 한지 용어는 하나 이상의 제1 한지 용어로부터 선택되고, 제4 한지 용어는 하나 이상의 제2 한지 용어로부터 선택됨―; 하나 이상의 순열 각각에 연관된 제2 점수에 기초하여 하나 이상의 순열로부터 하나의 순열을 선택하는 단계―여기서, 선택된 순열은 제4 한지 용어가 이어지는 제3 한지 용어를 포함함―; 선택된 제1 한지 용어의 제1 점수와 선택된 순열의 제2 점수를 비교하는 단계; 당해 비교 결과에 기초하여, 선택된 제1 한지 용어 또는 선택된 순열을 사용자 디바이스로의 출력을 위해 제공하는 단계를 더 포함할 수 있다. 하나 이상의 한지 문자 노드를 찾기 위해 찾은 병음 음절 노드를 사용하는 단계는, 찾은 병음 음절 노드의 식별자를 선택하는 단계; 및 식별자에 연관된 병음 음절 그래프에서 제1 한지 문자 노드를 찾는 단계를 포함한다. 병음 음절 그래프는 패트리샤 트리(patricia trie)이다.
전반적으로, 본 명세서에서 설명된 주제의 다른 양태는 데이터 처리 장치; 및 데이터 저장소를 포함하는 시스템에 구현될 수 있고, 상기 데이터 저장소에는 제1 쓰기 체계로 된 문자소들의 문자소 그래프―상기 문자소 그래프는 제1 복수 노드를 포함하고, 상기 제1 복수 노드에 있는 노드 각각은 상기 제1 쓰기 체계로 된 문자소를 나타내고, 상기 제1 복수 노드의 진부분집합에 있는 노드 각각은 전체 음절에 상응하고, 상응하는 전체 음절 각각은 상기 제1 복수 노드에 있는 문자소 그래프의 상응하는 노드의 문자소들과, 상기 제1 복수 노드에 있는 상기 상응하는 노드로부터 내려온 상기 노드들로부터의 상기 문자소들을 포함함―; 및 제2 쓰기 체계로 된 형태소들의 형태소 그래프―상기 형태소 그래프는 제2 복수 노드를 포함하고, 상기 제2 복수 노드에 있는 노드 각각은 제2 쓰기 체계로 된 하나 이상의 형태소를 표현하고, 상기 제2 복수 노드의 진부분집합에 있는 노드 각각은 어휘 항목에 상응하고, 상응하는 어휘 항목 각각은 상기 제2 복수 노드에 있는 형태소 그래프의 상응하는 노드의 형태소들과 제2 복수 노드에 있는 상응하는 노드로부터 내려오는 노드들의 형태소들을 포함함―가 저장된다. 본 양태의 다른 실시예들은 상응하는 방법들, 장치, 및 컴퓨터 프로그램 제품들을 포함한다.
이러한 또는 그 밖의 실시예들은 후술되는 특징들 중 하나 이상을 선택적으로 포함할 수 있다. 데이터 저장소는 하나 이상의 어휘 항목의 조합을 점수화하는 언어 모델을 더 저장한다.
본 명세서에서 설명된 주제의 특정 실시예들은 후술하는 이점 중 하나 이상을 실현하기 위해 구현될 수 있다. 제2 쓰기 체계로 된 상응하는 어휘 항목들을 식별하기 위하여 제1 쓰기 체계로 된 입력을 분석하기 위해 문자소 그래프와 형태소 그래프를 사용함으로써 가능성 있는 어휘 항목들의 탐색 영역이 확장되고, 이로써 고려되는 후보 어휘 항목들의 개수가 증가되고 정확성과 회수(recall)가 향상된다. 이에 더하여, 제2 쓰기 체계로 된 상응하는 어휘 항목을 식별하기 위하여 제1 쓰기 체계로 된 입력을 분석하기 위해 문자소 그래프 또는 형태소 그래프를 이용함으로써 후보 어휘 항목들을 식별하기 위해 요구되는 입력의 토큰(예컨대, 문자) 개수가 감소되고, 이로써 입력 방법의 편의성과 효율성이 증가되고 사용자의 경험이 향상된다.
후보 어휘 항목들을 식별하기 위해 요구되는 입력의 토큰 개수를 감소시키는 것은 더욱 작은 키패드 또는 예측 키보드(predictive keyboard)를 구비하는 모바일 디바이스(예컨대, 모바일 폰) 상에서 특히 유용할 수 있다. 이에 더하여, 모든 입력 텍스트(예컨대, 모든 병음 입력 스트링)를 분석할 수 있는 입력 방법 편집기는 입력 텍스트를 위한 출력 후보를 제공하기 위해 요구되는 사용자 입력과 상호 작용의 양을 감소시키고, 이로써 입력 방법의 편의성과 효율성이 더욱 증가되고 사용자 경험이 더욱 향상된다. 예를 들어, 사용자는 병음 음절 각각을 입력할 필요가 없고, 병음 음절 각각을 위한 출력 후보를 별도로 선택할 필요가 없다.
본 명세서에서 설명된 주제에 대한 하나 이상의 실시예가 첨부 도면들과 후술하는 상세한 설명에서 개시된다. 본 주제에 대한 다른 특징들, 양태들, 및 장점들은 상세한 설명, 도면들, 및 청구항들로부터 명백해질 것이다.
도 1a-1f는 제1 쓰기 체계로 된 예시적 텍스트 입력과 제2 쓰기 체계로 된 예시적 출력 텍스트 후보들을 포함한다.
도 2는 텍스트 입력의 관찰 시퀀스(observed sequence)와 텍스트 입력의 관찰 시퀀스에 의해 표현되는 음절들의 잠재적 시퀀스(potential(sequence)를 예시하는 블록도이다.
도 3은 예시적 문자소 그래프를 나타낸다.
도 4는 예시적 형태소 그래프를 나타낸다.
도 5는 문자소 그래프와 형태소 그래프의 예시적 사용에 대한 단계들을 예시한다.
도 6은 제1 쓰기 체계로 된 텍스트 입력에 기초하여 제2 쓰기 체계로 된 출력 텍스트 후보들을 생성하는 예시적 시스템의 블록도이다.
도 7a는 제1 쓰기 체계로 된 텍스트 입력에 기초하여 제2 쓰기 체계로 된 출력 텍스트 후보들을 생성하는 예시적 프로세스를 나타내는 순서도이다.
도 7b는 제1 쓰기 체계로 된 텍스트 입력에 기초하여 제2 쓰기 체계로 된 출력 텍스트 후보들을 생성하는 다른 예시적 프로세스를 나타내는 순서도이다.
도 8은 본 명세서에서 설명된 시스템들과 방법들을 구현하기 위해 이용될 수 있는 예시적 시스템의 블록도이다.
도 9는 예시적 입력 방법 편집기의 블록도이다.
여러 도면에서 유사한 참조 번호와 명칭들은 유사한 구성요소들을 가리킨다.
개요( overview )
도 1a-1f는 제1 쓰기 체계로 된 예시적 텍스트 입력과 제2 쓰기 체계로 된 예시적 출력 텍스트 후보들을 포함한다. 도 1a-1f는 제1 쓰기 체계(예컨대, 병음)로 된 예시적 텍스트 입력을 포함한다. 도 1c, 1d, 및 1f는 또한 제2 쓰기 체계(예컨대, 한지)로 된 예시적 출력 텍스트 후보들을 포함한다. 도 1a-1f에 포함된 예시적 텍스트 입력과 예시적 출력 텍스트 후보들은 일부 로마자와 한지 문자들 간에 구획 문자들(예컨대, 스페이스들)을 포함한다. 이러한 구획 문자들의 포함은 이 예들을 더 쉽게 이해할 수 있게 하고, 구획 문자들이 실제로는(예를 들어, 로마자를 입력하는 동안) 포함되지 않을 수도 있고, 사용자가 스페이스들을 사용하여 로마자를 분리하지 않을 수도 있다.
예로서, 사용자는 입력 방법 편집기(IME)에 로마자를 입력함으로써, 중국어 문장
Figure 112011072821028-pct00002
(예컨대, 영어로는 "we are going to America")을 입력하고 싶어할 수 있다. 사용자에 의해 입력된 입력 로마자는 제1 쓰기 체계인 병음으로 표현되기 위해 사용될 수 있다. 사용자는 IME가 제2 쓰기 체계인 한지로 된 출력을 제공하기를 원할 수 있다. 중국어 문장
Figure 112011072821028-pct00003
의 전체 병음 표현(full Pinyin representation)은
Figure 112011072821028-pct00004
이 된다. 사용자가 전체 병음 표현을 예를 들어, 특히 모바일 디바이스(예컨대, 모바일 폰) 상에서 입력하는 것은 불편할 수 있다.
따라서, 사용자는 전체 병음 표현보다 적은 캐릭터의 개수(예컨대, 축약)를 입력하고 싶어할 수 있다. 도 1a는 로마자 "w", m", "q", "m", 및 "g"를 포함하는 예시적 입력 텍스트를 나타낸다. 도 1a에 도시된 예시적 입력 텍스트에 상응하는 잠재적 한지 문자들을 식별하기 위해서, 입력 방법 편집기는 예시적 입력 텍스트를 잠재적 전체 병음 표현에 매핑할 수 있다. 이상적으로는, 입력 방법 편집기가 예시적 입력 텍스트 "w m q m g"를 전체 병음 표현
Figure 112011072821028-pct00005
에 매핑할 수 있다.
전체 병음 표현을 식별하는 작업은 2가지 원초적 문제점을 나타낸다. 도 1a-1d, 및 1f에 도시된 바와 같이, 로마자를 병음 음절로 분리하는 것이 공지되어 있다고 가정하면, 한가지 문제는 사용자가 의도했던 병음 음절을 로마자의 분리된 그룹이 표현하는지 판단하는 것이다. 이 문제는 도 1b-d를 참조하여 예시될 수 있다. 도 1b는 로마자 "w", "o", "m", "q", "u", "m", "e", "i", "g", "u", "o"를 포함하는 예시적 입력 텍스트를 나타낸다. 도 1b에 도시된 예시적 입력 텍스트
Figure 112011072821028-pct00006
가 도 1a에 도시된 것보다 전체 병음 표현
Figure 112011072821028-pct00007
에 매치하는 더 많은 문자들(유효한)을 포함하지만,
Figure 112011072821028-pct00008
는 도 1c와 1d에 도시된 바와 같이 두 개 이상의 전체 병음 표현을 여전히 표현할 수 있다.
도 1c는 중국어 문장
Figure 112011072821028-pct00009
에 대한 전체 병음 표현을 나타내고, 도 1d는 중국어 문장
Figure 112011072821028-pct00010
(예컨대, 영어로는 "I've never went to America")에 대한 전체 병음 표현을 나타낸다. 도 1c와 1d에서, "wo"는 "我"에 상응하고, "qu"는 "去"에 상응하고, "mei"는 "美"에 상응하고, 및 "guo"는 "國"에 상응한다. 도 1c와 1d는 사용자가 문자 "m"의 최초 출현(문자 "wo" 이후에)이 "們"에 상응할 수 있는 병음 음절 "men" 또는 "沒"에 상응할수 있는 병음 음절 "mei" 중 하나를 표현하고자 했을 수 있다는 것을 예시하기 위해 사용될 수 있다.
또 다른 문제는 각 로마자 입력이 다른 병음 음절(또는 한지 문자)를 표현하는지 여부를 판단하는 것이다. 상술한 것처럼, 각 병음 음절(예컨대, 전체 병음 음절)은 한지 문자에 상응한다. 이 문제는 도 1d-1f를 사용하여 예시될 수 있다. 다시, 도 1d가 예시적 입력 텍스트가 분할(예컨대, "wo", "mei", "qu", "mei", "guo" 각각이 병음 음절을 표현함)된다고 가정한다. 도 1e는 분할되지는 않았다는 것을 제외하고, 도 1d에 도시된 것과 동일한 예시적 입력 텍스트의 시퀀스를 나타낸다.
도 1e에 도시된 예시적 입력 텍스트"w o m e i q u m e i g u o"는 도 1d에 도시된 것과 같은 병음 음절들의 시퀀스 또는 도 1f에 도시된 병음 음절들의 시퀀스를 표현할 수 있다. 특히, 문자 "g", "u", "o"의 시퀀스는 도 1d에 도시된 바와 같이 단일 병음 음절 "guo"를 표현할 수 있다. 두 번째 예시에서, "gu"가 제1 병음 음절을 나타내고, "o"가 제2 병음 음절을 나타낼 수 있다. 도 1f는 사용자가 문장
Figure 112011072821028-pct00011
Figure 112011072821028-pct00012
(예컨대, 영어로는 ""My younger sister will go to Plun Valley")를 입력하고자 했을 수 있다는 것을 나타낸다. 또한, 도 1f는 "mei"가 예컨대, "妹"와 "梅" 같이 다른 한지 문자들에 상응할 수 있다는 것을 나타낸다.
도 2는 텍스트 입력의 관찰 시퀀스와, 텍스트 입력의 관찰 시퀀스에 의해 표현되는 음절들의 잠재적 시퀀스들(예를 들어, 은닉 마크코프 모델(hidden markov model)로 된 은닉 시퀀스들)을 예시한 블록도(200)이다. 특히, 도 2는 도 1c와 1d에서 예시된 음절들의 잠재적 시퀀스들을 나타낸다. 텍스트 입력 "w m q m g"의 관찰 시퀀스는 "wo men qu mei guo" 또는 "wo mei qu mei guo" 중 하나로 표현할 수 있다. 음절들의 다른 잠재적 시퀀스들도 가능하다(도시되지 않음). 예를 들어, 도 1f를 참조하여 예시된 것처럼, 텍스트 입력 "w m q m g"의 관찰 시퀀스는 "wo mei qu mei gu o"로도 표현될 수 있다.
제1 쓰기 체계(예컨대, 병음)로 된 텍스트 입력이 수신되었을 때, 상술되어진 2가지 원초적 문제는 (ⅰ) 제1 쓰기 체계로 된 텍스트 입력에 기초하여 제1 쓰기 체계로 된 n-그램 표현(예컨대, 병음 음절들)을 식별하고, (ⅱ) 식별된 n-그램 표현에 기초하여 제2 쓰기 체계로 된 어휘 항목들(예컨대, 한지 용어들)과 형태소들(예컨대, 한지 문자들)을 식별함으로써 해결될 수 있다. 이상적으로는, 사용자의 희망하는 입력으로 표현될 가능성이 가장 높은 형태소들이 식별된다.
예시적 문자소 그래프( Example Grapheme Graph )
문자소 그래프가 제1 쓰기 체계로 된 입력 텍스트로 표현된 제1 쓰기 체계로 된 n-그램 표현들을 식별하는데 사용될 수 있다.
n-그램은 n개의 연속하는 토큰들(예컨대, 문자들 또는 단어들)의 시퀀스이다. n-그램은 n-그램에 있는 토큰들의 개수인 체제(order)를 갖는다. 예를 들어, 1-그램(또는 유니그램)은 한 개의 토큰을 포함하고, 2-그램(또는 바이-그램)은 두 개의 토큰을 포함한다. 예로서, "wo"는 제2 쓰기 체계로 된 형태소(예컨대,
Figure 112011072821028-pct00013
로 발음되는 "我",
Figure 112011072821028-pct00014
로 발음되는 "臥")에 대한 제1 쓰기 체계(예컨대, 병음 음절)로 된 2-그램 표현일 수 있다. 다른 예시로서, "m"은 제2 쓰기 체계로 된 형태소(예컨대, "men"으로 발음되는 "們",
Figure 112011072821028-pct00015
로 발음되는 "沒")에 대한 제1 쓰기 체계로 된 1-그램 표현일 수 있다. 이 예시들에서, 제1 쓰기 체계는 병음이고, 제2 쓰기 체계는 한지이다.
도 1c에 도시된 예시로 잠시 돌아와서, 중국어 문장
Figure 112011072821028-pct00016
은 유니그램[예를 들어, 단어 "我們"(예컨대, 영어로는 "we"), "去"(예컨대, 영어로는 "went"), 및 "美國"(예컨대, 영어로는 "America")]으로 분할될 수 있다. 예시적 바이-그램은 "我們, 去"와 "去, 美國"이 있다. 이 예시에서, 바이-그램에 있는 토큰들은 콤마로 분할된다.
도 3은 문자소 그래프(300)를 나타낸다. 특히, 문자소 그래프(300, 예컨대 병음 입력 그래프)는 예를 들어 루트 노드(302)와 하나 이상의 자식 노드(child node)들과 같은 하나 이상의 노드(예컨대, 병음 음절 노드들)를 포함하는 트리(trie)이다. 루트 노트를 제외하고, 노드 각각은 제1 쓰기 체계(예를 들어, 병음)로 된 문자소(예를 들어, 로마자)를 표현한다. 노드들은 레벨들로 분류될 수 있다. 예를 들어, 루트 레벨은 루트 노드(302)를 포함할 수 있다. 제1 레벨은 루트 노드(302)에 대한 직계 자식 노드들(direct child nodes; 예컨대, 노드(310, 312, 314))을 포함할 수 있다. 제1 레벨에 있는 노드(301, 312, 314) 각각은 제1 서브-음절(예를 들어, 프리픽스)인 문자소를 표현한다. 예를 들어, 노드들(310, 312, 314)은 병음 음절을 시작하는 제1 로마자를 표현한다. 문자소 그래프(300)는 제2 쓰기 체계(예컨대, 한지 문자)로 된 형태소에 대한 제1 쓰기 체계(예컨대, 병음 음절)로 된 n-그램 표현들을 식별하기 위하여 루트 노드(302)로부터 그 노드의 자식 노드들까지 이동될 수 있다.
또한, 문자소 그래프(300)에 있는 노드 각각은 문자소 그래프의 상응하는 노드의 문자소들과 그 상응하는 노드로부터 내려온 노드들의 문자소들을 포함하는 n-그램 표현들에 상응한다. 예를 들어, 노드(310)은 n-그램 표현 "a"에 상응한다. 노드(324)는 n-그램 표현 "be"에 상응하고, 노드(330)는 n-그램 표현 "ang"에 상응한다.
이외에도, 문자소 그래프(300)에 있는 노드들의 진부분집합은 제2 쓰기 체계로 된 형태소에 상응하는 전체 음절(예컨대, 병음 음절)에 상응한다. 특히, 노드(310, "a"), 노드(320, "ai"), 노드(321, "an"), 노드(322, "ao"), 노드(323, "ba"), 노드(325, "zu"), 및 노드(330, "ang")는 전체 음절에 상응한다. 이 진부분집합은 문숫자(shaded node)들로 문자소 그래프(300)의 시각적 표현들로 지시된다. 대안적으로, 빗금쳐지지 않은 노드들은 음절의 일부에만 상응한다. 예를 들어, 노드(312, "b"), 노드(314, "z"), 노드(324, "be")는 병음 음절의 일부(예를 들어, 서브-음절)에만 상응한다. 빗금쳐지지 않은 노드들이 병음 음절의 일부에만 상응하기 때문에, 그 노드들은 제2 쓰기 체계에 있는 형태소에 상응하지 않는다.
노드들(예를 들어, 빗금쳐진 노드들)의 진부분집합에 있는 노드 각각도 식별자에 연관된다. 예를 들어, 노드(310)는 식별자 "1"에 연관되고, 노드(320)는 식별자 "2"에 연관되고, 노드(321)은 식별자 "3"에 연관되고, 노드(322)는 식별자 "5"에 연관되고, 노드(323)는 식별자 "6"에 연관되고, 노드(325)는 식별자 "418"에 연관되고, 노드(330)는 식별자 "4"에 연관된다. 식별자들은 문자들의 임의 다른 조합들(예컨대, 문자와 숫자가 합쳐진(alphanumeric) 스트링) 또는 숫자들일 수 있다.
보다 상세하게 후술될 것처럼, 식별자 각각은 형태소 그래프에서 노드들을 찾기 위하여 사용될 수 있다. 도 4를 잠시 참조하면, 간단한 개요로서, 형태소 그래프(400)는 제2 쓰기 체계(예컨대, 한지 문자들)로 된 하나 이상의 형태소에 각각 상응하는 노드들을 포함한다. 형태소 그래프(400)에 있는 하나 이상의 진부분집합은 제2 쓰기 체계(예컨대, 한지 용어들)로 된 어휘 항목들에 상응한다. 문자소 그래프(300)로부터 선택된 식별자는 예를 들어, 형태소 그래프(400)에서 그 식별자에 연관된 노드들을 찾음으로써 형태소 그래프(400)를 이동하기 위해 사용될 수 있다. 예를 들어, 노드(401)도 식별자 "1"에 연관되고, 노드(412)도 식별자 "2"에 연관되고, 노드(414)도 식별자 "3"에 연관되고, 노드(416)도 식별자 "418"에 연관된다. 도 4에서, 식별자들은 제1 레벨에 있는 노드들에 대해서만 예시되었지만, 실제로 식별자는 각 빗금쳐진 노드들에 연관된다.
도 3으로 돌아가서, 각 문자소(예컨대, 로마자)가 입력 방법 편집기에 의해 수신되기 때문에, 문자소 그래프(300)는 제1 쓰기 체계로 된 가능성 있는 n-그램 표현들을 식별하는데 사용될 수 있다. 예를 들어, 로마자 "b"가 수신되면, 노드(312)가 찾아질 수 있다. 다른 예시에서, 로마자 "a"가 "b" 이후에 수신될 수 있다. 다시 말하면, 입력 시퀀스가 "ba"일 수 있다. 따라서 노드(323)가 "ba"를 위해 찾아질 수 있고, 노드(310, 320, 321, 322, 330)가 "a"로 시작하는 나머지 병음 음절을 위해 찾아질 수 있다. 특히, 입력 시퀀스 "ba"는 병음 음절 "ba", "ba"로 시작하는 병음 음절, 또는 "b"로 시작하는 병음 음절과 "a"로 시작하는 병음 음절을 표현할 수 있다.
다른 구현예들에서, 가능성 있는 n-그램 표현들이 입력 시퀀스로 표현된 빗금쳐진 노드들을 찾음으로써 식별된 후에, 찾아진 빗금쳐진 노드들에 대한 연관된 식별자들이 반환될 수 있다. 상술된 바와 같이, 이러한 식별자들이 어휘 항목들을 식별하기 위하여 형태소 그래프에서 노드들을 찾기 위해 사용될 수 있다.
다른 구현예들도 가능하다. 예를 들어, 문자소 그래프(300)는 패트리샤 트리(Patricie trie)이지만, 문자소 그래프(300)는 다른 형태의 데이터 구조들(예컨대, 해쉬 테이블, 균형 트리(balanced trie))로 구현될 수 있다. 이외에도, 일부 구현예들에서, n-그램 표현들이 식별자들을 대신해서 또는 식별자들의 조합으로 반환될 수 있다. 또한, 문자소 그래프(300)는 쓰기 체계의 다른 조합들을 표현하도록 구현될 수도 있다. 예를 들어, 제1 쓰기 체계는 보포모포(bopompfo)일 수 있고, 제2 쓰기 체계는 한지일 수 있다. 다른 예시로서, 제1 쓰기 체계는 로마지(Romaji, 예컨대, 일본어의 로마자체)이고, 제2 쓰기 체계는 간지-일본어(Kanji-Japanese)일 수 있다.
예시적 형태소 그래프( Example Morpheme Graph )
도 4는 형태소 그래프(400)를 나타낸다. 특히, 형태소 그래프(400, 예컨대 병음 음절 그래프)는 예를 들면, 루트 노드(402)와 하나 이상의 자식 노드와 같은 하나 이상의 노드들(예를 들어, 한지 문자 노드들)을 포함하는 트리이다. 노드들은 레벨들로 분류될 수 있다. 예를 들어, 루트 레벨은 루트 노드(402)를 포함할 수 있다. 제1 레벨은 루트 노드(402)의 직계 자식 노드들(예컨대, 노드(410, 412, 414, 416)를 포함할 수 있다. 제1 레벨에 있는 노드들(410, 412, 414, 및 416)은 어휘 항목의 프리픽스를 표현한다. 예를 들어, 제1 레벨에 있는 노드들(410, 412, 414, 416)은 한지 용어(예를 들어, 단어 또는 구)로 시작하는 제1 한지 문자를 표현할 수 있다. 형태소 그래프(400)는 문자소 그래프(300)을 사용하여 식별된 n-그램 표현들에 기초하여 제2 쓰기 체계로 된 어휘 항목을 식별하기 위하여 루트 노드(402)에서부터 자식 노드들까지 이동될 수 있다.
형태소 그래프(400)에 있는 노드 각각은 제2 쓰기 체계로 된 하나 이상의 형태소를 표현한다. 예를 들어, 노드(410)는 형태소들 "阿", "呵", 및
Figure 112015006982847-pct00017
를 표현할 수 있고, 각 형태소는 여러가지 형태(예컨대,
Figure 112015006982847-pct00018
)로 발음될 수 있다. 다른 예시로서, 노드(421)는 "屋"(도시되지 않음)을 표현할 수 있다. 이외에도, 형태소 그래프(400)에 있는 노드들의 진부분집합은 어휘 항목들(예컨대, 한지 용어들)에 상응한다. 예를 들어, 노드들(410, 412, 414, 416, 420, 422, 423, 424, 425, 440)은 어휘 항목들에 상응한다. 이 진부분집합은 빗금쳐진 노드들로서 형태소 그래프(400)의 시각적 표현으로 제시된다. 대안적으로, 빗금쳐지지 않은 노드들은 어휘 항목의 일부에만 상응한다. 예를 들어, 노드들(421, 430)은 어휘 항목의 일부에만 상응한다. 특히, 노드(421)는 단지 어휘 항목의 일부(예컨대, 노드(440)에 상응하는 중국어 관용구
Figure 112015006982847-pct00019
의 일부)인 "愛屋"에 상응할 수 있다.
상응하는 어휘 항목 각각은 형태소 그래프의 상응하는 노드의 형태소들과, 그 상응하는 노드로부터 내려온 노드들의 형태소를 포함한다. 예를 들어, 노드(420)는 노드(410)로부터 내려온다. 노드(420)는 어휘 항목들
Figure 112011072821028-pct00020
Figure 112011072821028-pct00021
에 상응한다. "姨"와 "以"는 병음 음절 "yi"에 상응하는 형태소이고, "阿"는 노드(410)에 상응하는 형태소이다.
형태소 그래프(400)에 있는 노드들이 제1 쓰기 체계로 된 n-그램 표현들로 명명(예컨대, 노드(410)은 "a"로 명명되고, 노드(430)는 "ji"로 명명됨)되었지만, 실제로 노드들은 식별자들에 연관된다(예컨대, 문자소 그래프(300)로부터의 식별자와 동일함). 예를 들어, 상술되어진 바와 같이, 노드(410)는 식별자 "1"에 연관되고, 노드(416)는 식별자 "418"에 연관된다. 이외에도, 형태소 그래프에 있는 노드들도 상응하는 어휘 항목들을 식별하는 어휘 항목 식별자들(예컨대, 노드(425)에서 "足部"에 대한 "32778")에 연관될 수 있다.
일부 구현예들에서, 어휘 항목들(예컨대, 한지 용어들)은 형태소 그래프(400)와 분리된 데이터 구조로 저장된다. 이러한 또는 그 밖의 실시예들에서, 형태소 그래프의 각 노드는 문자소 그래프로부터의 식별자와 어휘 항목 식별자들에 오직 연관될 수 있다. 예를 들어, 어휘 항목들은 어휘 항목 식별자들로 인덱스된 사전에 저장될 수 있다. 형태소 그래프에서 찾은 노드들(예컨대, 빗금쳐진 노드들)은 사전에 있는 어휘 항목들을 식별하기 위해 사용될 수 있는 어휘 항목 식별자들을 제공한다.
도 5에 도시된 바와 같이, 문자소 그래프(300)를 사용하여 식별된 제1 쓰기 체계로 된 입력 시퀀스들의 n-그램 표현들에 대한 순열(permutation)들은 가능성 있는 어휘 항목들을 식별하기 위하여 형태소 그래프를 이동하는데 사용된다.
도 5는 문자소 그래프와 형태소 그래프의 예시적 사용에 대한 단계를 예시한다. 단계 0에서, 입력이 수신되지 않고, 문자소 그래프와 형태소 그래프에서는 자식 노드들을 찾을 수 없었다.
단계 1에서, 로마자 "w"가 입력 방법 편집기에 의해 수신된다. 응답으로서, 입력 방법 편집기는 문자소 그래프의 제1 레벨에서 "w"로 표현되는 노드를 찾는다. 또한 입력 방법 편집기는 "w"로 표현되는 노드로부터 내려오고, 전체 음절에 상응(예컨대, 제2 쓰기 체계로 된 형태소에 상응함)하는 문자소 그래프에 있는 노드들의 진부분집합에서 모든 노드들을 찾는다. 찾은 노드들에 연관된 식별자들은 한지 문자들로 표현되는 형태소 그래프에서 노드들을 찾기 위해 사용될 수 있다. 예를 들어, "w"는 병음 음절들 "wu", "wo", 및 "wei"의 제1 서브-음절이다. 도 5에 도시된 단계 1을 참조하면, "无"는
Figure 112015006982847-pct00022
에 상응하고, "我"는
Figure 112015006982847-pct00023
에 상응하고,
Figure 112015006982847-pct00024
Figure 112015006982847-pct00025
에 상응한다. 단계 1에서, 예시로서 "w"에 대해 가장 가능성이 높은 후보들일 수 있는 3개의 병음 문자(예컨대, "无", "我", 및
Figure 112015006982847-pct00026
)만이 도시되어 있다. 마찬가지로, 단계 2는 로마자 "w"와 "o"의 수신에 응답하여 처리된 가능성 있는 후보들의 일부만을 나타낸다. 도 5는 실제로 처리된 모든 가능성 있는 후보들을 나타내고 있지는 않다.
단계 2에서, 로마자 "o"는 로마자 "w"가 수신된 후에 입력 방법 편집기에 의해 수신된다. 문자소 그래프의 제1 레벨에서 "w"를 표현하는 노드를 찾는 것 이외에, 입력 방법 편집기는 또한 문자소 그래프의 제1 레벨에서 "o"를 표현하는 노드를 찾는다. 상술된 바와 같이, "w"가 전체 병음 음절의 제1 서브-음절이거나, "o"가 전체 병음 음절의 제1 서브-음절이거나, 또는 "wo"가 전체 병음 음절일 수 있다. 입력 방법 편집기는 또한 전체 병음 음절에 상응하는 문자소 그래프에 있는 노드들의 진부분집합에서 "w"와 "o"를 표현하는 노드로부터 내려온 모든 노드들을 찾는다. 찾은 노드들과 연관된 식별자들이 전체 음절을 표현하는 한지 문자들을 표현하는 형태소 그래프에서 노드들을 찾기 위해 사용될 수 있다. 예를 들어, "w"는 병음 음절 "wo"의 제1 서브-음절이다. 도 5에 도시된 단계 2를 참조하면, "我"는
Figure 112015006982847-pct00027
에 상응하고,
Figure 112015006982847-pct00028
Figure 112015006982847-pct00029
에 상응한다. 다른 예시로서, "o"는
Figure 112015006982847-pct00030
에 상응하는
Figure 112015006982847-pct00031
인 전체 병음 음절이다.
점수 부여( scoring )
상술된 바와 같이, 입력 텍스트로 표현되는 어휘 항목들의 가능성 있는 순열들은 문자소 그래프와 형태소 그래프를 사용하여 식별된다. 예를 들면, 도 5로 돌아가서, 단계 1은 로마자 "w"로 표현될 수 있는 제1 어휘 항목들 "无", "我", 및
Figure 112011072821028-pct00032
를 나타낸다. 제1 문자소(예컨대, "w")만을 수신한 후, 제1 어휘 항목들 예를 들어 "无", "我", 및
Figure 112011072821028-pct00033
중 하나가, 제1 용어 항목들 각각에 연관된 점수에 기초하여 선택될 수 있다. 예를 들어, 존재할 가능성이 가장 높은 용어 항목이 선택(및 디스플레이)될 수 있다.
상술된 것처럼, 추가 문자소들이 입력(예컨대, 제2 문자소)으로서 수신되면, 제1 문자소와 제2 문자소가 하나 이상의 제1 어휘 항목을 표현하거나, 또는 제1 문자소와 제2 문자소가 다른 문자 용어를 각각 표현(예컨대, 제2 문자소는 하나 이상의 제2 어휘 항목의 그룹으로부터 하나의 어휘 항목을 표현함)할 수 있다. 이러한 경우들을 설명하기 위하여, 제3 어휘 항목들과 제4 어휘 항목들로 된 순열들이 생성되고 점수가 부여될 수 있다. 제3 어휘 항목들은 하나 이상의 제1 어휘 항목으로부터 선택될 수 있고, 제4 어휘 항목들은 하나 이상의 제2 어휘 항목들로부터 선택될 수 있다. 제1 어휘 항목들의 점수와 순열들의 점수가 가장 가능성 있는 어휘 항목을 제공하기 위해 비교될 수 있다.
예를 들어, 도 5에서, 제1 어휘 항목들
Figure 112011072821028-pct00034
,
Figure 112011072821028-pct00035
, 및
Figure 112011072821028-pct00036
에 대한 점수들이 식별되거나, 또는 산출될 수 있다. 이외에도, 순열들
Figure 112011072821028-pct00037
Figure 112011072821028-pct00038
,
Figure 112011072821028-pct00039
, 및
Figure 112011072821028-pct00040
의 점수가 식별될 수 있다. 다시, 이 예시는 실제로 처리될 모든 가능성 있는 제1 어휘 항목들과 순열들을 예시하지는 않았다. 식별된 점수들은 예를 들어, 디스플레이를 위하여 가장 높은 점수를 갖는 어휘 항목 또는 순열을 제공하기 위하여 비교될 수 있다.
일부 구현예들에서, 가능성 있는 순열들이, 그 순열들이 존재할 가능성을 산출하기 위하여 n-그램 언어 모델에 송신되고, 하나 이상의 순열이 하나 이상의 기준(ctiteria)에 기초하여 선택될 수 있다. 예를 들어, 일어날 가능성이 가장 높은 순열이 선택될 수 있다.
n-그램 언어 모델에 따른, 특정 스트링(예컨대, 어휘 항목들의 순열)이 일어날 가능성은 체인 규칙(chain rule)을 사용하여 결정될 수 있다. 체인 규칙은 개별적 가능성들의 곱으로서 스트링의 확률을 결정한다. 따라서, 주어진 스트링 "e1, e2, …, ek"의 경우, 스트링에 대한 확률, p(e1, e2, …, ek)는 아래 식과 같다.
Figure 112011072821028-pct00041
n-그램 언어 모델은 특정 최대 크기 n-그램으로 제한(예컨대, 1-그램, 2-그램, 3-그램 등으로 제한)될 수 있다. 예를 들어, 특정 스트링 "NASA officials say they hope"의 경우, 최대 n-그램 체제(maximum n-gram order)가 3-그램으로 제한되면, 그 스트링에 대한 확률은 아래와 같이 조건부 확률의 곱으로서 결정될 수 있다. p(NASA officials say they hope)=p(NASA)·p(officials|NASA)·p(say|NASA officials)·p(they|officials say)·p(hope|say they). 이는 아래 식으로 일반화될 수 있다.
Figure 112011072821028-pct00042
여기서, n은 언어 모델에서 허용된 최대 n-그램의 체제이다.
조건부 확률들은 훈련 데이터의 문서들에 있는 상관 빈도들(relative frequencies)에 따라서, 일반적으로 실험에 의해 결정된다. 예를 들어, 상기 예시에서, 주어진 콘텐츠 "NASA officials"에 대한 "say"의 가능성은 아래 식에 의해 얻어진다.
Figure 112011072821028-pct00043
여기서 f(NASA officials say)는 훈련 데이터의 문서에서 스트링 "NASA officials say"의 존재에 대한 빈도, 즉 총수이다. n-그램 언어 모델에 있는 최대 n-그램 체제 내에 스트링들에 대한 조건부 확률들은 n-그램을 위하여 언어 모델에 저장된 확률에 상응하고, 예를 들어 p(say|NASA officials)는 3-그램 입력 "NASA officials say"을 위하여 언어 모델에 저장된 조건부 확률이다.
마찬가지로, 조건부 확률들은 다른 쓰기 체계를 위해 산출될 수 있다. 도 1c에 도시된 예시로 잠시 돌아가면, p(去|我們)는 2-그램 입력 "我們, 去"를 위하여 언어 모델에 저장된 조건부 확률이고, p(美國|我們, 去)는 3-그램 입력 "我們, 去, 美國"을 위하여 언어 모델에 저장된 조건부 확률이다.
일부 구현예들에서, 순열들 각각의 점수가 비교되고, 일어날 가능성이 가장 높은 순열이 사용자(예컨대, 사용자 디바이스 상에)에게 제시된다. 일부 구현예들에서는, 사용자에게 제시된 순열이 옳지 않으면, 사용자가 제시된 순열의 선두로부터 올바른 형태소를 식별(예컨대, 선택)할 수 있고, 입력 방법 편집기는 디스플레이를 위해 다른 순열을 생성할 수 있다. 예를 들어, 도 1b-1d로 돌아가서, 사용자는 입력으로서 "wo m qu mei guo"를 제공할 수 있다. 입력 방법 편집기는 가장 가능성 있는 순열로서 "我們去美國"를 디스플레이할 수 있다. 그러나 사용자는 "我沒去美國"을 입력하려고 했을 수 있다. 사용자는 "我"만을 선택할 수 있다. 응답으로, 입력 방법 편집기는 문자소 그래프와 형태소 그래프에 있는 "wo"로부터 식별된 "我"를 판단할 수 있고, 불완전한 스트링 "m qu mei guo"에 기초하여 문자소 그래프와 형태소 그래프를 사용하여 이전에 식별된 추가 후보들을 디스플레이할 수 있다. 예를 들어, 입력 방법 편집기는 "沒去美國"(예컨대, 영어로는 "never went to America")와
Figure 112011072821028-pct00044
(예컨대, 영어로는 "mother is going to America")를 디스플레이할 수 있다.
Figure 112011072821028-pct00045
는 병음 음절
Figure 112011072821028-pct00046
에 상응한다. 다른 구현들들도 가능하다. 예를 들어, 사용자는 제시된 순열의 임의의 형태소를 올바른 것으로 식별할 수 있다.
예시적 시스템( Example System )
도 6은 제1 쓰기 체계로 된 텍스트 입력에 기초하여 제2 쓰기 체계로 된 출력 텍스트 후보들을 생성하는 예시적 시스템(600)의 블록도이다. 시스템(600)은 오프라인 생성 모델(610)을 포함한다. 오프라인 생성 모델(610)은 훈련 데이터(도시되지 않음)로부터 사전(612)을 생성할 수 있다. 훈련 데이터의 예로서 웹 페이지들, 인스턴스 메시지 로그들, 뉴스, 및 텍스트의 다른 소스들이 포함될 수 있다. 사전(612)은 병음 음절에 연관되고, 점수(예컨대, 훈련 데이터에서 일어나는 한지 문자들의 빈도)에 연관된 한지 문자들을 포함할 수 있다. 사전(612)은 병음 음절과 연관된 점수들을 포함하는 병음 테이블(614)을 생성하기 위해서 분석될 수 있다. 사전(612)은 병음 음절들, 연관된 한지 문자들, 및 각각의 식별자들을 포함하는 사전 모델(620)을 생성하기 위하여, 사전 구축기(616)에 의해 사전(612)이 분석되고, 병음 트리 구축기(618)에 의해 병음 테이블(614)이 분석될 수 있다.
사전 모델(620)은 사전 트리(632, 예컨대 형태소 그래프(400))와 병음 트리(634, 예컨대 문자소 그래프(300))를 생성하기 위해 IME(630)에 의해 사용될 수 있다. 입력(640, 예컨대 사용자 입력)이 수신되면, 병음 분석기(636)와 사전 분석기(638)가 상술한 도 1 내지 도 5를 참조하여 설명한 것처럼, 사전 트리(632)와 병음 트리(634)를 사용하여 입력을 처리할 수 있다. IME(630)는 가장 가능성 있는 어휘 항목들의 순열을 식별하기 위하여 언어 모델(639)을 사용하고, 사용자 디바이스 상에 디스플레이를 위해, 가장 가능성 높은 순열을 출력(650)으로서 제공할 수 있다.
시스템(600)의 구성 요소들은 서로 하나 이상 통신적으로 결합될 수 있다. 상기에서 식별된 구성요소들이 독립적 또는 별개로서 설명되었지만, 그 구성요소 중 하나 이상이 단일 프로세스 또는 루틴에 결합될 수 있다. 본 명세서에서 제공되는, 개별 기능들에 대한 책임을 분리한 기능적 설명들은 예시적이다. 필요에 의해서 또는 설계 선호도에 따라서, 기능적 책임에 대한 다른 그룹핑 또는 다른 분할이 이루어질 수 있다. 예를 들어, 단일 분석기가 병음 분석기(636)과 사전 분석기(638)의 기능을 수행할 수 있다. 다른 예시로서, 사전 트리(632), 병음 트리(634), 및 언어 모델(639)이 IME(예를 들어, 도 9에 도시된 바와 같이)와 별개일 수 있다.
예시적 프로세스들( Example Prosesses )
도 7a는 제1 쓰기 체계로 된 텍스트 입력에 기초하여 제2 쓰기 체계로 된 출력 텍스트 후보들을 생성하는 예시적 프로세스(700a)를 나타내는 순서도이다. 프로세스(700a)는 제1 쓰기 체계로 된 제1 문자소를 수신하는 단계(705)를 포함한다. 예를 들어, IME(630)은 제1 문자소(예컨대, 입력(640))를 수신할 수 있다.
또한, 프로세스(700a)는 제2 쓰기 체계로 된 제1 형태소에 대한 제1 쓰기 체계에서의 제1 n-그램 표현을 식별하기 위해 제1 쓰기 체계로 된 문자소들의 문자소 그래프를 사용하는 단계(710)를 포함한다. 제1 n-그램 표현은 제1 문자소를 포함한다. 예를 들어, 병음 분석기(636)는 제2 쓰기 체계(예컨대, 한지 문자)로 된 제1 형태소에 대한 제1 쓰기 체계(예컨대, 병음 음절)에서의 제1 n-그램 표현을 식별하기 위하여 문자소 그래프(예컨대, 병음 트리(634))를 사용할 수 있다. 또한, 프로세스(700a)는 형태소 그래프에서 하나 이상의 제1 노드를 찾기 위하여 제1 n-그램 표현을 사용하는 단계(715)를 포함할 수 있다. 형태소 그래프에서 찾은 제1 노드 각각은 제2 쓰기 체계로 된 하나 이상의 제1 어휘 항목을 표현하고, 하나 이상의 제1 어휘 항목은 제1 n-그램 표현으로 표현된다. 예를 들면, 사전 분석기(638)는 형태소 그래프(예컨대, 사전 트리(632))에서 하나 이상의 제1 노드를 찾기 위해 제1 n-그램 표현을 사용할 수 있다.
또한 프로세스(700a)는 하나 이상의 제1 어휘 항목 각각에 연관된 제1 점수에 기초하여 하나 이상의 제1 어휘 항목들로부터 하나의 제1 어휘 항목을 선택하는 단계(720)를 포함한다. 예를 들어, 사전 분석기(638)는 하나 이상의 제1 어휘 항목 각각에 연관(언어 모델(639)을 사용하여 식별됨)된 제1 점수에 기초하여 제1 어휘 항목을 선택할 수 있다.
프로세스(700a)는 또한 제1 어휘 항목을 사용자 디바이스 상에 디스플레이를 위하여 제공하는 단계(725)를 포함한다. 예를 들어, IME(630)가 사용자 디바이스(예컨대, 모바일 폰) 상에 디스플레이를 위하여 제1 어휘 항목을 제공할 수 있다.
도 7b는 제1 쓰기 체계로 된 텍스트 입력에 기초하여 제2 쓰기 체계로 된 출력 텍스트 후보들을 생성하는 다른 예시적 프로세스(700b)를 나타내는 순서도이다. 일부 구현예들에서는, 프로세서(700b)가 프로세스(700a) 이후에 수행될 수 있다.
프로세스(700b)는 제1 쓰기 체계로 된 제2 문자소를 수신하는 단계(730)를 포함한다. 예를 들어, IME(630)은 제2 문자소(예컨대, 입력(640))를 수신할 수 있다. 또한, 프로세스(700b)는 제2 쓰기 체계로 된 제2 형태소에 대한 제1 쓰기 체계에서의 제2 n-그램 표현을 식별하기 위해 제1 쓰기 체계로 된 문자소들의 문자소 그래프를 사용하는 단계(735)를 포함한다. 제2 n-그램 표현은 제2 문자소를 포함한다. 예를 들어, 병음 분석기(636)는 제1 쓰기 체계에서의 제2 n-그램 표현을 식별하기 위하여 문자소 그래프(예컨대, 병음 트리(634))를 사용할 수 있다.
또한 프로세스(700b)는 형태소 그래프에서 하나 이상의 제2 노드를 찾기 위해 제2 n-그램 표현을 사용하는 단계(740)를 포함할 수 있다. 형태소 그래프에서 찾은 제2 노드 각각은 제2 쓰기 체계로 된 하나 이상의 제2 어휘 항목을 표현할 수 있고, 하나 이상의 제2 어휘 항목 각각은 제2 n-그램 표현으로 표현될 수 있다. 예를 들면, 사전 분석기(638)가 형태소 그래프(예컨대, 사전 트리(632))에서 하나 이상이 제2 노드를 찾기 위해 제2 n-그램 표현을 사용할 수 있다.
또한 프로세스(700b)는 하나 이상의 제1 어휘 항목으로부터의 제3 어휘 항목와 하나 이상의 제2 어휘 항목으로부터의 제4 어휘 항목으로 된 하나 이상의 순열을 생성하는 단계(745)를 포함한다. 예를 들어, 사전 분석기(638)는 하나 이상의 어휘 순열(예컨대, 한지 용어들의 순열들)을 생성할 수 있다.
또한 프로세스(700b)는 제3 어휘 항목와 제4 어휘 항목으로 된 하나 이상의 순열 각각에 연관된 제2 점수에 기초하여, 제3 어휘 항목와 제4 어휘 항목으로 된 하나 이상의 순열로부터 하나의 순열을 선택하는 단계(750)를 포함한다. 선택된 순열은 제4 어휘 항목이 이어지는 제3 어휘 항목을 포함한다.
프로세스(700b)는 또한 선택된 제1 어휘 항목의 제1 점수와 선택된 순열의 제2 점수를 비교하는 단계(755)를 포함하고, 사용자 디바이스 상에 디스플레이를 위하여, 선택된 제1 어휘 항목 또는 선택된 순열을 그 비교 결과에 기초하여, 제공하는 단계(760)를 포함한다. 예를 들어, 사전 분석기(638)가 제2 점수(예컨대, 언어 모델(639)을 사용하여 식별됨)에 기초하여 순열을 선택하고, 제1 점수와 제2 점수를 비교할 수 있다. 이외에도, IME(630)는 사용자 디바이스 상에 디스플레이를 위하여, 선택된 제1 어휘 항목 또는 선택된 순열을 그 비교 결과에 기초하여, 제공할 수 있다.
다른 예시적 시스템들( Other Example System )
도 8은 본 명세서에서 설명된 시스템들 및 방법들을 구현하기 위해 이용될 수 있는 예시적 시스템(800)의 블록도이다. 예시적 시스템(800)은 예를 들어, 컴퓨터 바이스(예컨대, 개인용 컴퓨터 디바이스) 또는 다른 전자 디바이스들(예컨대, 모바일 폰, 모바일 통신 디바이스, PDA(Personal Digital Assistant), GPS(Global Positioning System) 네이게이션 디바이스 등) 내에 구현될 수 있다.
예시적 시스템(800)은 프로세싱 디바이스(802), 제1 데이터 저장소(804), 제2 데이터 저장소(806), 입력 디바이스들(808), 출력 디바이스들(810), 및 네트워크 인터페이스(812)를 포함한다. 예를 들어, 데이터 버스와 마더보드를 포함하는 버스 시스템(814)이 구성 요소들(802, 804, 806, 808, 810, 812) 간의 데이터 통신을 확립하고 제어하기 위해 사용될 수 있다. 다른 시스템 구조들도 사용될 수 있다.
프로세싱 디바이스(802)는 예를 들어, 하나 이상의 마이크로프로세서를 포함할 수 있다. 제1 데이터 저장소(804)는 예를 들어, 랜덤 액세스 메모리 저장 디바이스(예컨대, 다이나믹 랜덤 액세스 메모리), 또는 다른 형태의 컴퓨터 판독가능 매체 메모리 디바이스를 포함할 수 있다. 제2 데이터 저장소(806)는 예를 들어, 하나 이상의 하드 드라이브, 플래시 메모리, 및/또는 판독 전용 메모리(read only memory), 또는 다른 형태의 컴퓨터 판독가능 매체 메모리 디바이스를 포함할 수 있다.
예시적 입력 디바이스들(808)은 키보드, 마우스, 스타일러스 등을 포함할 수 있고, 예시적 출력 디바이스들(810)은 디스플레이 디바이스, 오디오 디바이스 등을 포함할 수 있다. 네트워크 인터페이스(812)는 네트워크(816)와 데이터를 송수신하도록 동작가능한 예를 들어, 유선 또는 무선 네트워크 디바이스를 포함할 수 있다. 네트워크(816)는 하나 이상의 LANs(Local Area Network), 및/또는 인터넷과 같은 WAN(Wide Area Network)을 포함할 수 있다.
일부 구현예들에서, 시스템(800)은 데이터 저장소(806)와 같은 데이터 저장소로부터의 입력 방법 편집기(IME) 코드(801)를 포함할 수 있다. 입력 방법 편집기 코드(801)는, 실행되면 프로세싱 디바이스(802)로 하여금 입력 방법 편집 기능들을 수행하도록 하는 명렁어들에 의해 정의될 수 있다. 입력 방법 편집기 코드(801)는 웹 브라우저 환경에서 실행될 수 있는 예를 들어, 스크립트 명령어들(예컨대, 자바스크립트 또는 ECMA 스크립트 명령어들)과 같은 해석된(interpreted) 명령어들을 포함할 수 있다. 또한, 독립형 애플리케이션, 애플렛(applet), 플러그 인 모듈(plug-in module) 등과 같은 다른 구현예들이 이용될 수 있다.
입력 방법 편집기 코드(801)의 실행은 입력 방법 편집기 인스턴스(IMEI: input method editor instance, 803)를 생성하거나 시작시킨다. 입력 방법 편집기 인스턴스(803)는, 시스템(800)이 예를 들어, 병음을 표현하는 로마자와 같은 문자들 또는 기호들에 대한 입력들을 수신하는 동안에, 시스템(800)에서 하나 이상의 입력 방법의 처리를 가능하게 한다. 예를 들어, 사용자는 한지 용어들의 식별을 위한 병음 입력들을 입력하기 위하여, 하나 이상의 입력 디바이스[808, 예를 들어 키보드(예컨대, 로마문자용 키보드), 필기 인식 엔진과 함께 사용되는 스타일러스 등]를 사용할 수 있다. 일부 예시에서, 하나의 한지 용어는 둘 이상의 병음 입력으로 작성될 수 있다.
제1 데이터 저장소(804) 및/또는 제2 데이터 저장소(806)는 입력들의 연관성을 저장할 수 있다. 사용자 입력에 기초하여, 입력 방법 편집기 인스턴스(803)는 그 사용자 입력에 의해 표현되는 하나 이상의 후보 선택들을(예컨대, 어휘 항목의 순열들) 식별하기 위하여 데이터 저장소(804) 및/또는 데이터 저장소(806)에 있는 정보를 사용할 수 있다. 일부 구현예들에서, 둘 이상의 후보 선택이 식별되면, 후보 선택들이 출력 디바이스(810) 상에 디스플레이된다. 입력 디바이스(808)를 사용하여, 사용자는 후보 선택으로부터 예를 들어 사용자가 입력하고자 하는 한지 용어를 선택할 수 있다.
일부 구현예들에서, 시스템(800)에 있는 입력 방법 편집기 인스턴스(803)는 하나 이상의 병음 입력을 수신할 수 있고, 그 입력들을 한지 용어들로 변환할 수 있다. 입력 방법 편집기 인스턴스(803)는 예를 들어, 한지 용어들을 표현하기 위하여 키스트로크(keystroke)들로부터 수신된 병음 음절(예컨대, 로마자들)의 구성(composition)을 사용할 수 있다. 각 로마자는 예를 들어, 로마문자용 키보드에 있는 키에 상응할 수 있다. 병음 입력 방법 편집기를 사용하여, 사용자는 한지 용어의 소리를 표현하는 하나 이상의 병음 음절을 포함하는 입력들을 사용함으로써 그 힌지 용어를 입력할 수 있다. 그러나, 다른 언어와 쓰기 체계를 위한 입력 방법들도 가능할 수 있다.
일부 구현예들에서, 시스템(800)에 액세스하는 원격 컴퓨팅 시스템(818)이 또한 표의문자를 편집하기 위해 사용될 수 있다. 예를 들어, 시스템(800)은 네트워크(816)를 통해 표의문자 편집 능력을 제공하는 서버일 수 있다. 일 예시에서, 사용자는 원격 컴퓨팅 시스템(예컨대, 클라이언트 컴퓨터)를 사용하여 데이터 저장소(804) 및/또는 데이터 저장소(806)에 저장된 표의문자를 편집할 수 있다. 시스템(800)은 예를 들어, 문자를 선택하고, 네트워크 인터페이스(812)를 통해 사용자로부터 입력을 수신할 수 있다. 프로세싱 디바이스(802)는 예를 들어, 선택된 문자에 인접하는 하나 이상의 문자를 식별하고, 그 수신된 입력 및 인접하는 문자들에 기초하여 하나 이상의 후보 선택을 식별할 수 있다. 시스템(800)은 후보 선택들을 포함하는 데이터 통신을 원격 컴퓨팅 시스템에 전송할 수 있다.
도 9는 예시적 입력 방법 편집 시스템(920)의 블록도이다. 입력 방법 편집 시스템(920)는 예를 들어, 입력 방법 편집기 코드(801)과 연관된 데이터 저장소(804, 806)를 사용하여 구현될 수 있다. 입력 방법 편집기 시스템(920)은 입력 방법 편집기 엔진(922), 문자소 그래프(924; 예컨대 문자소 그래프(300)), 형태소 그래프(926; 예컨대 형태소 그래프(400)), 및 언어 모델 데이터 저장소(928)를 포함한다. 다른 저장소 구조들도 사용될 수 있다.
언어 모델 데이터 저장소(928)는 하나 이상의 언어 서브-모델(예컨대, 일본어 모델, 중국어 모델 등)을 정의할 수 있다. 각 언어 모델은 예를 들어 사용자가 입력 세트를 입력함에 있어서 사용자의 가능성 있는 의도를 결정하기 위하여 사용될 수 있는 특정 규칙 세트(예컨대, 언어 고유의 문법, 구문 세트(phrase set), 동사 등)을 정의할 수 있다. 각 언어 모델은 또한 특정 사용자의 사용자 이력(예컨대 특정 사용자가 자주 사용하는 단어 또는 문구의 사전)을 포함할 수 있다.
예를 들어, 중국어 모델은 중국어 문법 모델을 포함할 수 있다. 예를 들어, 중국어 문법 모델들은 연쇄 동사 구문 모델(serial verb constructions model), 완료 및 미완료 모델들, 및 다른 문법 모델들을 포함할 수 있다.
예를 들어, 키스트로크들의 입력에 기초하여, 일련의 병음 입력이 문자소 그래프(924)를 사용하여 식별될 수 있다. 결과적으로, 병음 입력들이 형태소 그래프(926)를 사용하여 한지 문자들을 식별하기 위하여 이용될 수 있다. 중국어 문법 모델이 중국어 문맥(context)하에서 사용자가 입력하고자 하는 의도에 대한 가능성을 판단하기 위하여 한지 문자들에 적용될 수 있다. 예를 들어, 모두 동사인 한지 문자들로 된 입력 스트링이 매우 낮은 점수를 갖지만, 동사와 목적어를 갖는 입력 스트링은 높은 점수를 가질 수 있다. 예를 들어 다른 예시에서, "나는 꽃을 사랑합니다"라고 읽는 중국어 문자로 된 입력은 높은 점수를 받고, "침대 소 TV"라고 읽는 중국어 문자로 된 입력 스트링은 낮은 점수를 받는다.
다른 프로세스들이 점수를 조정하기 위해 사용될 수 있다. 예를 들어, 특정 언어에서 자주 사용하지 않는 단어들은 더 낮게 조정될 수 있는 반면, 사용자 프로파일에 의해 정의된 것처럼, 자주 사용된 언어 또는 구문은 더 높게 조정될 수 있다. 다른 구현예들도 사용할 수 있다.
본 명세서에 기재된 주제와 기능적 동작들의 실시예들은 디지털 전자 회로로 구현되거나, 또는 상세한 설명에 기재된 구조 및 그들의 구조적 등가물을 포함하는 컴퓨터 소프트웨어, 펌웨어, 또는 하드웨어로 구현되거나, 또는 이들 중 하나 이상의 조합으로 구현될 수 있다. 본 명세서에 기재된 주제의 실시예들은 하나 이상의 컴퓨터 프로그램 제품, 즉, 데이터 프로세싱 장치(예컨대, 프로세싱 디바이스(802))에 의해 실행되거나 또는 그 장치의 동작을 제어하도록, 유형의 프로그램 운반체(carrier)에 인코딩된 컴퓨터 프로그램 명령의 하나 이상의 모듈로서 구현될 수 있다. 유형의 프로그램 운반체는 전파되는(propagated) 신호 또는 컴퓨터 판독가능 매체일 수 있다. 전파되는 신호는 컴퓨터 판독가능 매체일 수 있다. 컴퓨터 판독가능 매체는 기계 판독가능 저장 디바이스, 기계 판독가능 저장 기판(substrate), 메모리 디바이스, 또는 이들 중 하나 이상의 조합일 수 있다.
"프로세싱 장치"라는 용어는 데이터를 처리하기 위한 모든 장치, 디바이스 및 기계를 포괄하며, 예를 들어, 프로그래머블 프로세서, 컴퓨터, 또는 다중 프로세서 또는 컴퓨터들을 포함한다. 장치는 또한 하드웨어 외에도, 당해 컴퓨터 프로그램에 대한 실행 환경을 생성하는 코드를 포함하고, 코드는 예를 들어, 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 시스템, 또는 이들 중 하나 이상의 조합을 구성한다.
컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 스크립트 또는 코드로도 알려짐)은 컴파일 또는 인터프리터 언어나 선언적 또는 절차적 언어를 포함하는 모든 형태의 프로그래밍 언어로 작성될 수 있으며, 독립형 프로그램이나 모듈, 컴포넌트, 서브루틴 또는 컴퓨터 환경에서 사용하기에 적합한 그 밖의 유닛을 포함하는 임의의 형태로도 배치될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 반드시 상응해야 하는 것은 아니다. 프로그램은 다른 프로그램 또는 데이터를 보유하는 파일의 일부에 저장되거나(예를 들어, 마크업 언어 문서 내에 저장되는 하나 이상의 스크립트), 당해 프로그램 전용의 단일 파일에 저장되거나, 또는 다수의 조화된(coordinated) 파일들(예를 들어, 하나 이상의 모듈, 서브프로그램, 코드의 부분을 저장하는 파일)에 저장될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨터에서, 또는 한 위치에 배치되거나 또는 다수의 위치에 걸쳐서 분산되고 통신 네트워크에 의해 접속된 다수의 컴퓨터에서 실행되도록 배치될 수 있다.
본 명세서에 설명된 프로세스와 논리 흐름은 하나 이상의 프로그래머블 프로세서에 의해 수행될 수 있고, 이 프로그래머블 프로세서는 입력 데이터에 작용하여 출력을 생성함으로써 기능을 수행하는 하나 이상의 컴퓨터 프로그램들을 실행한다. 예를 들어, FPGA(field programmable gate array) 또는 ASIC(application specific integrated circuit)과 같은 전용 논리 회로가 프로세스와 논리 흐름을 수행하거나, 장치를 구현할 수 있다.
컴퓨터 프로그램의 실행에 적합한 프로세서에는, 예를 들어, 범용 및 전용 마이크로프로세서, 및 임의 종류의 디지털 컴퓨터 중 하나 이상의 프로세서가 있다. 일반적으로, 프로세서는 판독 전용 메모리(ROM), 또는 랜덤 액세스 메모리(RAM), 또는 양자로부터 명령어들과 데이터를 수신한다. 컴퓨터의 필수 구성요소는 명령을 실행하는 프로세서, 및 명령어와 데이터를 저장하는 하나 이상의 메모리 디바이스이다. 컴퓨터의 주요 요소들은 명령어들을 수행하기 위한 프로세서와 명령어들과 데이터를 저장하기 위한 하나 이상의 메모리 디바이스이다. 일반적으로, 컴퓨터는 데이터를 저장하기 위한 하나 이상의 대용량 저장 디바이스(예를 들어, 자기 디스크, 광자기 디스크, 또는 광디스크)를 포함하거나, 또는 이 디바이스와 데이터를 송수신하기 위하여 동작적으로(operatively) 결합될 수 있다. 하지만 컴퓨터는 이러한 디바이스를 반드시 구비할 필요는 없다. 더욱이, 컴퓨터는 예를 들어, 모바일 전화기, 개인 정보 단말(PDA), 모바일 오디오 또는 비디오 재생기, 게임 콘솔, GPS(Global Positioning System) 수신기 등과 같은 다른 디바이스에 내장될 수 있다.
컴퓨터 프로그램 명령어들과 데이터를 저장하기 적합한 컴퓨터 판독가능 매체에는, 예를 들어, 반도체 메모리 디바이스(예를 들어, EPROM, EEPROM, 플래시 메모리 디바이스); 자기 디스크(예를 들어, 내부 하드디스크, 착탈식 디스크); 광자기 디스크; 및 CD ROM과 DVD-ROM 디스크를 포함하는 모든 형태의 비휘발성 메모리, 매체 및 메모리 디바이스가 포함된다. 프로세서와 메모리는 전용 논리 회로에 의해 보완되거나 또는 전용 논리 회로에 통합될 수 있다.
사용자와의 상호작용을 제공하기 위하여, 본 명세서에 설명된 주제의 실시예들은, 정보를 사용자에게 디스플레이하기 위한 디스플레이 디바이스(예를 들어, CRT(cathode ray tube) 또는 LCD(liquid crystal display) 모니터), 키보드 및 포인팅 디바이스(예를 들어, 마우스 또는 트랙볼)를 구비한 컴퓨터에 구현될 수 있다. 사용자는 키보드와 포인팅 디바이스를 이용하여 컴퓨터에 입력을 제공할 수 있다. 사용자와의 상호작용을 제공하기 위하여 다른 종류의 디바이스가 또한 사용될 수 있다. 예를 들어, 사용자에게 제공되는 피드백(feedback)은 예를 들어, 시각 피드백, 청각 피드백 또는 촉각 피드백인 임의 형태의 감각 피드백일 수 있고, 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함하는 임의의 형태로 수신될 수 있다.
본 명세서가 다수의 특정한 구현 세부사항을 포함하고 있지만, 이는 임의 구현예의 범위나 청구할 사항의 범위에 대한 어떠한 제한으로서도 이해되어서는 안 되며, 특정한 구현예들의 특정한 실시예에 고유할 수 있는 특징의 설명으로서 이해되어야 한다. 별개의 실시예의 문맥으로 본 명세서에서 설명된 소정 특징은 조합되어 단일 실시예로 구현될 수도 있다. 반대로, 단일 실시예의 문맥에서 설명한 다양한 특징은 복수의 실시예에서 별개로 구현되거나 어떤 적당한 하위 조합으로서도 구현 가능하다. 또한, 앞에서 특징이 소정 조합에서 동작하는 것으로서 설명되고 그와 같이 청구되었지만, 청구된 조합으로부터의 하나 이상의 특징은 일부 경우에 해당 조합으로부터 삭제될 수 있으며, 청구된 조합은 하위 조합이나 하위 조합의 변형으로 될 수 있다.
마찬가지로, 도면에서 특정한 순서로 동작을 묘사하고 있지만, 그러한 동작이 바람직한 결과를 얻기 위해, 도시한 특정 순서나 순차적인 순서로 수행되어야 한다거나, 설명한 모든 동작이 수행되어야 한다는 것을 의미하는 것은 아니다. 소정 환경에서, 멀티태스킹 및 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시예에 있어서 다양한 시스템 구성요소의 분리는 모든 실시예에서 그러한 분리를 요구하는 것으로 이해되어서는 안 되며, 설명한 프로그램 구성요소와 시스템은 일반적으로 단일 소프트웨어 제품으로 통합되거나 또는 복수의 소프트웨어 제품으로 패키지 될 수 있다는 점을 이해되어야 한다.
본 명세서에서 설명한 주제의 특정 실시예가 기술되었다. 그 밖의 실시예는 후술하는 청구범위 내에 속한다. 예를 들어, 청구항에 인용된 동작들은 상이한 순서로 수행될 수 있지만, 여전히 바람직한 결과를 달성한다. 일 실시예로서, 첨부한 도면에 도시한 프로세스는, 바람직한 결과를 얻기 위해, 도시된 특정 순서나 순차적인 순서를 반드시 요구하는 것은 아니다. 소정 구현예에서, 멀티태스킹과 병렬 프로세싱이 효과적일 수 있다.
612: 사전 616: 사전 구축기
614: 병음 테이블 618: 병음 구축기
620: 사전 모델 630: 입력 방법 편집기
632: 사전 트리 634: 병음 트리
636: 병음 분석기 638: 사전 분석기
639: 언어 모델 640: 입력
650: 출력 802: 프로세싱 디바이스
803: 입력 방법 편집기 인스턴스 804, 806: 데이터 저장소
808: 입력 디바이스들 810: 출력 디바이스들
812: 네트워크 인터페이스 816: 네트워크
920: 입력 방법 편집기 시스템 922: IME 엔진

Claims (18)

  1. 컴퓨터 구현 방법으로서,
    제1 쓰기 체계로 된 제1 문자소(grapheme)를 수신하는 단계;
    제2 쓰기 체계로 된 제1 형태소(morpheme)에 대한 제1 쓰기 체계에서의 제1 n-그램 표현(n-gram representation)을 식별하기 위해 제1 쓰기 체계로 된 문자소들의 문자소 그래프를 사용하는 단계―여기서, 제1 n-그램 표현은 제1 문자소를 포함함―;
    형태소 그래프에서 하나 이상의 제1 노드를 찾기 위해 상기 제1 n-그램 표현을 사용하는 단계―여기서, 형태소 그래프에서 찾은 제1 노드 각각은 제2 쓰기 체계로 된 하나 이상의 제1 어휘 항목(lexical item)를 표현하고, 하나 이상의 제1 어휘 항목 각각은 상기 제1 n-그램 표현에 의해 표현됨―;
    상기 하나 이상의 제1 어휘 항목 각각에 연관된 제1 점수에 기초하여 상기 하나 이상의 제1 어휘 항목으로부터 하나의 제1 어휘 항목을 선택하는 단계; 및
    상기 제1 어휘 항목을 사용자 디바이스 상에 디스플레이를 위하여 제공하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
  2. 청구항 1에 있어서,
    상기 제1 문자소는 상기 제2 쓰기 체계로 된 음절 일부만을 표현하는 것을 특징으로 하는 컴퓨터 구현 방법.
  3. 청구항 1에 있어서,
    상기 제1 쓰기 체계로 된 제2 문자소를 수신하는 단계;
    상기 제2 쓰기 체계로 된 제2 형태소에 대한 상기 제1 쓰기 체계에서의 제2 n-그램 표현을 식별하기 위해 상기 제1 쓰기 체계로 된 문자소들의 상기 문자소 그래프를 사용하는 단계―여기서, 상기 제2 n-그램 표현은 제2 문자소를 포함함―;
    상기 형태소 그래프에서 하나 이상의 제2 노드를 찾기 위해 제2 n-그램 표현을 사용하는 단계―여기서, 상기 형태소 그래프에서 찾은 제2 노드 각각은 상기 제2 쓰기 체계로 된 하나 이상의 제2 어휘 항목을 표현하고, 상기 하나 이상의 제2 어휘 항목 각각은 상기 제2 n-그램 표현에 의해 표현됨―;
    제3 어휘 항목와 제4 어휘 항목으로 된 하나 이상의 순열(permutation)을 생성하는 단계―여기서, 상기 제3 어휘 항목은 상기 하나 이상의 제1 어휘 항목으로부터 선택되고, 상기 제4 어휘 항목은 상기 하나 이상의 제2 어휘 항목으로부터 선택됨―;
    상기 하나 이상의 순열 각각에 연관된 제2 점수에 기초하여, 상기 하나 이상의 순열로부터 하나의 순열을 선택하는 단계―여기서, 상기 선택된 순열은 상기 제4 어휘 항목이 이어지는 상기 제3 어휘 항목을 포함함―;
    상기 선택된 제1 어휘 항목의 상기 제1 점수와 상기 선택된 순열의 상기 제2 점수를 비교하는 단계; 및
    상기 비교 결과에 기초하여, 상기 선택된 제1 어휘 항목 또는 상기 선택된 순열을 사용자 디바이스 상에 디스플레이를 위하여 제공하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
  4. 청구항 3에 있어서,
    상기 제1 문자소는 상기 제2 문자소에 의해 부분적으로만 표현되는 제4 형태소와 다른 제3 형태소의 일부만을 표현하는 것을 특징으로 하는 컴퓨터 구현 방법.
  5. 청구항 1에 있어서,
    문자소 그래프는 복수의 노드를 포함하고,
    노드 각각은 상기 제1 쓰기 체계로 된 문자소를 표현하고,
    상기 복수 노드의 진부분집합(proper subset of the plurality of nodes)에 있는 노드 각각은 전체 음절(full syllable)에 상응하고,
    상응하는 전체 음절 각각은 문자소 그래프의 상응하는 노드의 문자소들과 상기 상응하는 노드로부터 내려온 상기 노드들의 문자소들을 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
  6. 청구항 5에 있어서,
    상기 제1 n-그램 표현은 상기 노드들의 진부분집합에 있는 노드들 중 하나에 상응하는 전체 음절을 표현하는 것을 특징으로 하는 컴퓨터 구현 방법.
  7. 청구항 1에 있어서,
    상기 형태소 그래프는 복수 노드를 포함하고,
    노드 각각은 상기 제2 쓰기 체계로 된 하나 이상의 형태소를 표현하고,
    상기 복수 노드의 진부분집합에 있는 노드 각각은 어휘 항목에 상응하고,
    상응하는 어휘 항목 각각은 형태소 그래프의 상응하는 노드의 형태소들과 상기 상응하는 노드로부터 내려온 상기 노드들의 형태소를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
  8. 청구항 7에 있어서,
    상기 형태소는 한지 문자(Hanzi character)에 상응하는 것을 특징으로 하는 컴퓨터 구현 방법.
  9. 청구항 1에 있어서,
    상기 제1 n-그램 표현은 전체 병음 음절의 대표이고,
    상기 하나 이상의 어휘 항목(lexical item) 각각은 한지 용어인 것을 특징으로 하는 컴퓨터 구현 방법.
  10. 청구항 1에 있어서,
    형태소 그래프에서 하나 이상의 노드를 찾기 위하여 제1 n-그램 표현을 사용하는 단계는,
    상기 제1 n-그램 표현에 상응하는 문자소 그래프에 있는 제1 노드의 식별자를 선택하는 단계; 및
    상기 식별자와 연관된 상기 형태소 그래프에 있는 제2 노드를 찾는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
  11. 컴퓨터 구현 방법으로서,
    제1 로마자 입력을 수신하는 단계;
    병음 입력 그래프에서 제1 병음 음절 노드를 찾기 위해 상기 제1 로마자 입력을 사용하는 단계―상기 병음 입력 그래프는 복수의 병음 음절 노드를 포함하고, 병음 음절 노드 각각은 하나의 로마자에 상응하고, 상기 복수의 병음 음절 노드의 진부분집합에 있는 병음 음절 노드 각각은 하나의 병음 음절에 상응하고, 상응하는 병음 음절 각각은 병음 입력 그래프의 상응하는 병음 음절 노드의 로마자와 상기 상응하는 병음 음절 노드로부터 내려온 상기 병음 음절 노드들의 상기 로마자를 포함함― ;
    병음 음절 그래프에서 하나 이상의 제1 한지 문자 노드를 찾기 위해 상기 찾은 병음 음절 노드를 사용하는 단계―상기 병음 음절 그래프는 복수의 한지 문자 노드를 포함하고, 한지 문자 노드 각각은 하나의 병음 음절에 상응하고, 상기 복수의 한지 문자 노드의 진부분집합에 있는 한지 문자 노드 각각은 하나 이상의 제1 한지 용어에 상응하고, 상응하는 하나 이상의 제1 한지 용어 각각은 병음 음절 그래프의 상응하는 한지 문자 노드의 병음 음절들과 상기 상응하는 한지 문자 노드로부터 내려온 상기 한지 문자 노드들의 병음 음절들에 상응하는 한지 문자들을 포함함―; 및
    사용자 디바이스에 출력을 위하여, 하나 이상의 제1 한지 용어 각각에 연관된 제1 점수에 기초하여 하나 이상의 한지 문자 노드 중 하나에 상응하는 제1 한지 용어를 선택하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
  12. 청구항 11에 있어서,
    제2 로마자 입력을 수신하는 단계;
    상기 병음 입력 그래프에서 제2 병음 음절 노드를 찾기 위하여 상기 제2 로마자 입력을 사용하는 단계―여기서, 상기 제2 병음 음절 노드는 상기 제2 로마자 입력을 포함하는 병음 음절을 표현함―;
    병음 음절 그래프에서 하나 이상의 제2 한지 문자 노드를 찾기 위하여 찾은 제2 상기 병음 음절 노드를 사용하는 단계―여기서, 찾은 제2 한지 문자 노드 각각은 하나 이상의 제2 한지 용어에 상응함―;
    제3 한지 용어와 제4 한지 용어로 된 하나 이상의 순열을 생성하는 단계―여기서, 상기 제3 한지 용어는 상기 하나 이상의 제1 한지 용어로부터 선택되고, 상기 제4 한지 용어는 상기 하나 이상의 제2 한지 용어로부터 선택됨―;
    상기 하나 이상의 순열 각각에 연관된 제2 점수에 기초하여, 상기 하나 이상의 순열로부터 하나의 순열을 선택하는 단계―여기서, 상기 선택된 순열은 상기 제4 한지 용어가 이어지는 상기 제3 한지 용어를 포함함―;
    상기 선택된 제1 한지 용어의 제1 점수와 상기 선택된 순열의 제2 점수를 비교하는 단계; 및
    상기 비교 결과에 기초하여, 상기 선택된 제1 한지 용어 또는 상기 선택된 순열을 상기 사용자 디바이스로의 출력을 위해 제공하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
  13. 청구항 11에 있어서,
    상기 하나 이상의 한지 문자 노드를 찾기 위해 상기 찾은 병음 음절 노드를 사용하는 단계는
    상기 찾은 병음 음절 노드의 식별자를 선택하는 단계; 및
    상기 식별자에 연관된 상기 병음 음절 그래프에서 제1 한지 문자 노드를 찾는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
  14. 청구항 11에 있어서,
    상기 병음 음절 그래프는 패트리샤 트리(patricia trie)인 것을 특징으로 하는 컴퓨터 구현 방법.
  15. 시스템으로서,
    데이터 처리 장치; 및
    데이터 저장소를 포함하고, 상기 데이터 저장소에는
    제1 쓰기 체계로 된 문자소들의 문자소 그래프―상기 문자소 그래프는 제1 복수 노드를 포함하고, 상기 제1 복수 노드에 있는 노드 각각은 상기 제1 쓰기 체계로 된 문자소를 나타내고, 상기 제1 복수 노드의 진부분집합에 있는 노드 각각은 전체 음절에 상응하고, 상응하는 전체 음절 각각은 상기 제1 복수 노드에 있는 문자소 그래프의 상응하는 노드의 문자소들과, 상기 제1 복수 노드에 있는 상기 상응하는 노드로부터 내려온 상기 노드들로부터의 문자소들을 포함함―; 및
    제2 쓰기 체계로 된 형태소들의 형태소 그래프―상기 형태소 그래프는 제2 복수 노드를 포함하고, 상기 제2 복수 노드에 있는 노드 각각은 제2 쓰기 체계로 된 하나 이상의 형태소를 표현하고, 상기 제2 복수 노드의 진부분집합에 있는 노드 각각은 어휘 항목에 상응하고, 상응하는 어휘 항목 각각은 상기 제2 복수 노드에 있는 형태소 그래프의 상응하는 노드의 형태소들과 제2 복수 노드에 있는 상응하는 노드로부터 내려오는 노드들의 형태소들을 포함함―가 저장되는 것을 특징으로 하는 시스템.
  16. 청구항 15에 있어서,
    상기 데이터 저장소는 하나 이상의 상기 어휘 항목의 조합을 점수화하는 언어 모델을 더 저장하는 것을 특징으로 하는 시스템.
  17. 데이터 처리 장치로 하여금 동작들을 수행가능하게 하는 컴퓨터 프로그램이 수록된 비-일시적인(non-transitory) 컴퓨터 판독가능 매체로서,
    상기 동작들은:
    제1 쓰기 체계로 된 제1 문자소를 수신하는 동작;
    제2 쓰기 체계로 된 제1 형태소에 대한 제1 쓰기 체계에서의 제1 n-그램 표현(n-gram representation)을 식별하기 위해 제1 쓰기 체계로 된 문자소들의 문자소 그래프를 사용하는 동작―여기서, 제1 n-그램 표현은 제1 문자소를 포함함―;
    형태소 그래프에서 하나 이상의 제1 노드를 찾기 위해 상기 제1 n-그램 표현을 사용하는 동작―여기서, 형태소 그래프에서 찾은 제1 노드 각각은 제2 쓰기 체계로 된 하나 이상의 제1 어휘 항목을 표현하고, 하나 이상의 제1 어휘 항목 각각은 상기 제1 n-그램 표현에 의해 표현됨―;
    상기 하나 이상의 제1 어휘 항목 각각에 연관된 제1 점수에 기초하여 상기 하나 이상의 제1 어휘 항목으로부터 하나의 제1 어휘 항목을 선택하는 동작; 및
    상기 제1 어휘 항목을 사용자 디바이스 상에 디스플레이를 위하여 제공하는 동작을 포함하는 것을 특징으로 하는 비-일시적인 컴퓨터 판독가능 매체.
  18. 청구항 17에 있어서,
    상기 동작들은:
    상기 제1 쓰기 체계로 된 제2 문자소를 수신하는 동작;
    상기 제2 쓰기 체계로 된 제2 형태소에 대한 상기 제1 쓰기 체계에서의 제2 n-그램 표현을 식별하기 위해 상기 제1 쓰기 체계로 된 문자소들의 상기 문자소 그래프를 사용하는 동작―여기서, 상기 제2 n-그램 표현은 제2 문자소를 포함함―;
    상기 형태소 그래프에서 하나 이상의 제2 노드를 찾기 위해 제2 n-그램 표현을 사용하는 동작―여기서, 상기 형태소 그래프에서 찾은 제2 노드 각각은 상기 제2 쓰기 체계로 된 하나 이상의 제2 어휘 항목을 표현하고, 상기 하나 이상의 제2 어휘 항목 각각은 상기 제2 n-그램 표현에 의해 표현됨―;
    제3 어휘 항목와 제4 어휘 항목으로 된 하나 이상의 순열(permutation)을 생성하는 동작―여기서, 상기 제3 어휘 항목은 상기 하나 이상의 제1 어휘 항목으로부터 선택되고, 상기 제4 어휘 항목은 상기 하나 이상의 제2 어휘 항목으로부터 선택됨―;
    상기 하나 이상의 순열 각각에 연관된 제2 점수에 기초하여, 상기 하나 이상의 순열로부터 하나의 순열을 선택하는 동작―여기서, 상기 선택된 순열은 상기 제4 어휘 항목이 이어지는 상기 제3 어휘 항목을 포함함―;
    상기 선택된 제1 어휘 항목의 상기 제1 점수와 상기 선택된 순열의 상기 제2 점수를 비교하는 동작; 및
    상기 비교 결과에 기초하여, 상기 선택된 제1 어휘 항목 또는 상기 선택된 순열을 사용자 디바이스 상에 디스플레이를 위하여 제공하는 동작을 더 포함하는 것을 특징으로 하는 비-일시적인 컴퓨터 판독가능 매체.
KR1020117021894A 2009-03-19 2009-03-19 입력 방법 편집기 KR101524740B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2009/070889 WO2010105428A1 (en) 2009-03-19 2009-03-19 Input method editor

Publications (2)

Publication Number Publication Date
KR20120006489A KR20120006489A (ko) 2012-01-18
KR101524740B1 true KR101524740B1 (ko) 2015-06-01

Family

ID=42739129

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020117021894A KR101524740B1 (ko) 2009-03-19 2009-03-19 입력 방법 편집기

Country Status (6)

Country Link
US (1) US9026426B2 (ko)
JP (1) JP5362095B2 (ko)
KR (1) KR101524740B1 (ko)
CN (1) CN102439540B (ko)
HK (1) HK1170318A1 (ko)
WO (1) WO2010105428A1 (ko)

Families Citing this family (143)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
CN103026318B (zh) * 2010-05-21 2016-08-17 谷歌公司 输入法编辑器
US9104306B2 (en) * 2010-10-29 2015-08-11 Avago Technologies General Ip (Singapore) Pte. Ltd. Translation of directional input to gesture
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9176948B2 (en) * 2012-03-27 2015-11-03 Google Inc. Client/server-based statistical phrase distribution display and associated text entry technique
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9959340B2 (en) * 2012-06-29 2018-05-01 Microsoft Technology Licensing, Llc Semantic lexicon-based input method editor
CN108052489A (zh) * 2012-08-31 2018-05-18 微软技术许可有限责任公司 用于输入法编辑器的个人语言模型
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US9199155B2 (en) * 2013-03-14 2015-12-01 Google Inc. Morpheme-level predictive graphical keyboard
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10191929B2 (en) 2013-05-29 2019-01-29 Noblis, Inc. Systems and methods for SNP analysis and genome sequencing
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US9760624B1 (en) 2013-10-18 2017-09-12 Google Inc. Automatic selection of an input language
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9760559B2 (en) * 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10560552B2 (en) 2015-05-21 2020-02-11 Noblis, Inc. Compression and transmission of genomic information
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US9785252B2 (en) * 2015-07-28 2017-10-10 Fitnii Inc. Method for inputting multi-language texts
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10175770B2 (en) 2016-10-13 2019-01-08 International Business Machines Corporation Proactive input method editor switching
WO2018101671A1 (en) 2016-11-29 2018-06-07 Samsung Electronics Co., Ltd. Apparatus and method for providing sentence based on user input
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US11222712B2 (en) 2017-05-12 2022-01-11 Noblis, Inc. Primer design using indexed genomic information
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
CN109032374B (zh) * 2017-06-09 2023-06-20 北京搜狗科技发展有限公司 一种用于输入法的候选展示方法、装置、介质及设备
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
CN109947779B (zh) * 2019-03-29 2021-01-22 北京金山安全软件有限公司 用户输入词汇的存储方法、装置及设备
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN110262674B (zh) * 2019-06-27 2023-07-18 北京金山安全软件有限公司 一种基于拼音输入的汉字输入方法、装置及电子设备
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060088027A (ko) * 2005-01-31 2006-08-03 엔이씨 (차이나) 씨오., 엘티디. 사전 학습 방법 및 상기 방법을 사용하는 디바이스, 입력방법 및 상기 입력 방법을 사용하는 사용자 터미널디바이스

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0776964B2 (ja) 1982-11-26 1995-08-16 株式会社日立製作所 日本文入力方法
US5270927A (en) * 1990-09-10 1993-12-14 At&T Bell Laboratories Method for conversion of phonetic Chinese to character Chinese
US6154758A (en) * 1994-05-13 2000-11-28 Apple Computer, Inc. Text conversion method for computer systems
JP2741575B2 (ja) 1994-09-22 1998-04-22 日本アイ・ビー・エム株式会社 文字認識文字補完方法及びコンピュータ・システム
US5862256A (en) 1996-06-14 1999-01-19 International Business Machines Corporation Distinguishing gestures from handwriting in a pen based computer by size discrimination
JP3663012B2 (ja) * 1996-07-19 2005-06-22 シャープ株式会社 音声による入力装置
US5953541A (en) 1997-01-24 1999-09-14 Tegic Communications, Inc. Disambiguating system for disambiguating ambiguous input sequences by displaying objects associated with the generated input sequences in the order of decreasing frequency of use
US6005495A (en) * 1997-02-27 1999-12-21 Ameritech Corporation Method and system for intelligent text entry on a numeric keypad
US5896321A (en) 1997-11-14 1999-04-20 Microsoft Corporation Text completion system for a miniature computer
JPH11338858A (ja) 1998-05-22 1999-12-10 Toshiba Corp 入力予測装置、入力予測方法及び入力予測プログラムを記録した記録媒体
US6212412B1 (en) 1998-06-09 2001-04-03 Qualcomm Incorporated System and method for character case control in a wireless communication device
US6356866B1 (en) * 1998-10-07 2002-03-12 Microsoft Corporation Method for converting a phonetic character string into the text of an Asian language
US7712053B2 (en) 1998-12-04 2010-05-04 Tegic Communications, Inc. Explicit character filtering of ambiguous text entry
JP4273559B2 (ja) * 1999-03-19 2009-06-03 株式会社デンソー 検索装置
US6204848B1 (en) * 1999-04-14 2001-03-20 Motorola, Inc. Data entry apparatus having a limited number of character keys and method
FI112978B (fi) * 1999-09-17 2004-02-13 Nokia Corp Symbolien syöttö
US6848080B1 (en) * 1999-11-05 2005-01-25 Microsoft Corporation Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors
CN1201286C (zh) * 1999-12-23 2005-05-11 英特尔公司 使用基于词汇树的n格拉姆语言模式的执行语音识别的方法
US7107204B1 (en) 2000-04-24 2006-09-12 Microsoft Corporation Computer-aided writing system and method with cross-language writing wizard
JP2001312294A (ja) * 2000-05-02 2001-11-09 Atr Onsei Gengo Tsushin Kenkyusho:Kk 入力記号列を出力記号列に変換するトランスデューサの学習方法およびトランスデューサの学習プログラムを記憶したコンピュータ読み取り可能な記録媒体
JP2002007042A (ja) 2000-06-16 2002-01-11 Fuji Photo Film Co Ltd 情報入力装置
US7277732B2 (en) * 2000-10-13 2007-10-02 Microsoft Corporation Language input system for mobile devices
US7165021B2 (en) * 2001-06-13 2007-01-16 Fujitsu Limited Chinese language input system
JP4369245B2 (ja) 2002-03-22 2009-11-18 ソニー エリクソン モバイル コミュニケーションズ, エービー 携帯電話装置及びテキストを入力する方法
US20050057512A1 (en) * 2003-07-17 2005-03-17 Min-Wen Du Browsing based Chinese input method
CN1581041A (zh) 2004-05-20 2005-02-16 汤步青 一种用于数字键盘的汉字拼音输入方法
US20050289463A1 (en) * 2004-06-23 2005-12-29 Google Inc., A Delaware Corporation Systems and methods for spell correction of non-roman characters and words
CN100550011C (zh) 2004-11-29 2009-10-14 广东瑞图万方科技有限公司 建立联想输入系统的方法及对应的联想输入系统和方法
US7676357B2 (en) * 2005-02-17 2010-03-09 International Business Machines Corporation Enhanced Chinese character/Pin Yin/English translator
CN100565431C (zh) 2005-04-18 2009-12-02 诺基亚(中国)投资有限公司 进行不同类型字形的混合输入的方法和设备
CN1908863A (zh) 2005-08-07 2007-02-07 黄金富 双语混合输入方法及具有字典功能的手机
CN1851624A (zh) 2006-05-31 2006-10-25 陈青 数字键盘九格魔方图输入法
US20080221866A1 (en) * 2007-03-06 2008-09-11 Lalitesh Katragadda Machine Learning For Transliteration
JP2008250378A (ja) * 2007-03-29 2008-10-16 Sanyo Electric Co Ltd 入力文字列予測装置および入力文字列予測プログラム
CN104866469B (zh) * 2007-04-11 2018-10-02 谷歌有限责任公司 具有第二语言模式的输入法编辑器
CN101779200B (zh) * 2007-06-14 2013-03-20 谷歌股份有限公司 词典词和短语确定方法和设备
CN101369209B (zh) 2007-08-15 2013-08-21 北京三星通信技术研究有限公司 用于全混合输入的手写输入装置及其方法
US8365071B2 (en) * 2007-08-31 2013-01-29 Research In Motion Limited Handheld electronic device and associated method enabling phonetic text input in a text disambiguation environment and outputting an improved lookup window
US8289283B2 (en) 2008-03-04 2012-10-16 Apple Inc. Language input interface on a device
US8296125B2 (en) * 2008-10-17 2012-10-23 International Business Machines Corporation Translating source locale input string to target locale output string

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060088027A (ko) * 2005-01-31 2006-08-03 엔이씨 (차이나) 씨오., 엘티디. 사전 학습 방법 및 상기 방법을 사용하는 디바이스, 입력방법 및 상기 입력 방법을 사용하는 사용자 터미널디바이스

Also Published As

Publication number Publication date
JP2012521025A (ja) 2012-09-10
HK1170318A1 (en) 2013-02-22
CN102439540B (zh) 2015-04-08
US9026426B2 (en) 2015-05-05
CN102439540A (zh) 2012-05-02
US20120016658A1 (en) 2012-01-19
KR20120006489A (ko) 2012-01-18
WO2010105428A1 (en) 2010-09-23
JP5362095B2 (ja) 2013-12-11

Similar Documents

Publication Publication Date Title
KR101524740B1 (ko) 입력 방법 편집기
JP5997217B2 (ja) 言語変換において複数の読み方の曖昧性を除去する方法
KR101465770B1 (ko) 단어 확률 결정
US20190087403A1 (en) Online spelling correction/phrase completion system
CN105917327B (zh) 用于将文本输入到电子设备中的系统和方法
US8594999B2 (en) Typing candidate generating method for enhancing typing efficiency
US10073536B2 (en) Virtual keyboard input for international languages
Sakuntharaj et al. Use of a novel hash-table for speeding-up suggestions for misspelt Tamil words
KR20100029221A (ko) 명칭 엔터티와 신규 단어를 검출하는 것
US20110137642A1 (en) Word Detection
ERYİǦİT et al. Social media text normalization for Turkish
JP2008537806A (ja) マニュアルで入力されたあいまいなテキスト入力を音声入力を使用して解決する方法および装置
JP2003514304A5 (ko)
KR20100015958A (ko) 멀티모드 다국어 입력기
WO2014205232A1 (en) Language input method editor to disambiguate ambiguous phrases via diacriticization
JP2017004127A (ja) テキスト分割プログラム、テキスト分割装置、及びテキスト分割方法
Prabhakar et al. Machine transliteration and transliterated text retrieval: a survey
Uthayamoorthy et al. Ddspell-a data driven spell checker and suggestion generator for the tamil language
Sharma et al. Word prediction system for text entry in Hindi
UzZaman et al. A comprehensive bangla spelling checker
CN113330430B (zh) 语句结构向量化装置、语句结构向量化方法及记录有语句结构向量化程序的记录介质
Shaaban Automatic Diacritics Restoration for Arabic Text
Mon Spell checker for Myanmar language
Bhatia et al. Predictive and corrective text input for desktop editor using n-grams and suffix trees
Bhuyan et al. Context-Based Clustering of Assamese Words using N-gram Model

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180511

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190517

Year of fee payment: 5