CN103914513B - 一种实体输入方法和装置 - Google Patents

一种实体输入方法和装置 Download PDF

Info

Publication number
CN103914513B
CN103914513B CN201410015318.7A CN201410015318A CN103914513B CN 103914513 B CN103914513 B CN 103914513B CN 201410015318 A CN201410015318 A CN 201410015318A CN 103914513 B CN103914513 B CN 103914513B
Authority
CN
China
Prior art keywords
candidate item
entity
label
knowledge
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410015318.7A
Other languages
English (en)
Other versions
CN103914513A (zh
Inventor
蒋前程
余浩
张阔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201410015318.7A priority Critical patent/CN103914513B/zh
Publication of CN103914513A publication Critical patent/CN103914513A/zh
Application granted granted Critical
Publication of CN103914513B publication Critical patent/CN103914513B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods

Abstract

本发明公开了一种实体输入方法和装置,涉及输入法领域。所述方法包括:接收输入的输入序列;获取对应输入序列的至少一个初始候选项;基于知识库对所述初始候选项进行语义分析,并根据语义分析结果从知识库查询目标对象;将所述目标对象对应的知识内容封装为实体候选项,加载至所述输入序列对应的各候选项中;根据所述初始候选项的位置,在候选框中展示所述实体候选项。本发明可以选取更符合当前输入场景的实体候选项加载至各候选项中,使目标对象可以以实体对象的形式直接展现给用户,提高了输入法的信息容量和精度,提高了复杂信息输入的流畅性,提高了输入效率。

Description

一种实体输入方法和装置
技术领域
本发明涉及输入法领域,具体涉及一种实体输入方法和装置。
背景技术
目前,输入法系统的基本处理过程为:接收用户按照一定的编码方式输入的字符序列,然后将该字符序列转换为字词形式的多个候选项,再接收用户选择的最为匹配的候选项进行上屏,从而完成输入。而实际中,用户在输入的时候,经常会遇到一些在输入过程中不太确定的,或者需要输入一些比纯文本更丰富的图片、链接等复杂信息。遇到这样的情况,用户一般会切换到浏览器,到一些固定的网站进行查询,找到待输入的相关答案或者其他复杂信息之后再在输入区域进行粘贴。因此,用户通过搜索以确定输入的复杂信息时,则需要经过:打开浏览器,在搜索引擎中输入查询串,甄别各搜索结果得到目标信息,复制目标信息进行转发等一系列操作过程,导致信息输入的效率低下。
因此,现有技术的上述过程极大的影响到了复杂信息输入的流畅性,用户需要在不同的应用软件中进行操作,降低了输入的效率。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种实体输入装置和相应的一种实体输入方法。
依据本发明的一个方面,提供了一种实体输入方法,包括:
接收输入的输入序列;
获取对应输入序列的至少一个初始候选项;
基于知识库对所述初始候选项进行语义分析,并根据语义分析结果从知识库查询目标对象;
将所述目标对象对应的知识内容封装为实体候选项,加载至所述输入序列对应的各候选项中;
根据所述初始候选项的位置,在候选框中展示所述实体候选项。
优选的,所述基于知识库对所述初始候选项进行语义分析,并根据语义分析结果从知识库查询目标对象包括:
基于知识库识别并标记所述初始候选项的各词的标签,得到标记序列;所述标签包括:实体对象、和/或属性词、和/或对应属性词的属性值;
利用上下文无关文法获得的文法集,对所述标记序列进行文法分析,并根据文法分析的结果在知识库中进行匹配查询,以获得知识库中的知识内容作为目标对象。
优选的,还包括:针对同一实体对象,根据既定的行业类别构建各行业类别对应的实体对象标签。
优选的,所述基于知识库识别并标记所述初始候选项的各词的标签时,
遍历实体对象表,对所述初始候选项中的实体对象进行标记;
根据每个实体对象的标签对应的所属行业类别,遍历相应行业类别中的属性词表,对所述初始候选项中的各属性词进行属性词标记。
优选的,所述基于知识库识别并标记所述初始候选项的各词的标签,得到标记序列,包括:
当对一实体对象对应不同行业类别的实体对象进行标记时,分别将所述实体对象的标签与所述实体对象上下文的其他分词对应的词性标签进行组合,获得标记序列;
将所述各标记序列分别与既定的匹配模板进行匹配,确定最终的标记序列。
优选的,所述将所述各标记序列分别与既定的匹配模板进行匹配,确定最终的标记序列包括:
将所述各标记序列分别与既定的匹配模板进行匹配,选择出现概率最大的标记序列作为最终的标记序列。
优选的,所述利用上下文无关文法获得的文法集,对所述标记序列进行文法分析,并根据文法分析的结果在知识库中进行匹配查询,以获得知识库中的知识内容作为目标对象包括:
利用上下文无关文法获得的文法集,对所述标记序列进行文法分析,将文法分析结果进行转换以得到机器查询语言;
根据所述机器查询语言在知识库中进行查询,将得到的知识内容作为目标对象。
优选的,所述利用上下文无关文法获得的文法集,对所述标记序列进行文法分析时,包括:
利用以上下文无关文法确定的文法集,对所述标记序列进行递归规约,并根据规约子句与初始SQL子句的对应关系,将递归规约过程中出现的子语句进行记录;
当规约结束时,根据各初始SQL子句的归属关系、以及各初始SQL语句使用的标签中对应的词,组装为完整SQL语句。
优选的,所述识别并标记所述初始候选项的各词的标签时,还包括:
识别所述属性词所属的编号,在所述在属性词的标签中添加所述词性对应的编号;
进一步的,所述将递归规约过程中出现的子语句进行记录包括:
以所述标记序列的首个标签开始,在基于文法集进行递归规约过程中,根据属性词标签的编号确认下一轮的规约子语句,直至子语句规约完毕。
优选的,所述将所述目标对象对应的知识内容封装为实体候选项包括:
以图片为载体,将所述目标对象的知识内容加入所述图片中,封装为所述实体候选项。
优选的,所述实体候选项在各候选项中的数量大于一个时,根据输入的匹配符进行匹配;所述匹配符与各实体候选项对应的知识内容所属的行业类别和/或标识相对应。
优选的,还包括:
所述实体候选项在各候选项中的数量大于一个时,将各实体候选项分别加载至候选区域的二级菜单。
优选的,还包括:
当所述初始候选项被触发时,将所述实体候选项附着所述初始候选项上屏,供用户进行触发;
或者,
所述实体候选项被点击后,调用对应封装的知识内容在本地进行加载,分析展现对应的知识内容,供当前用户进行查看。
优选的,所述知识内容包括媒体对象,
所述媒体对象包括图片、音乐、flash、视频,将所述媒体对象被封装为实体候选项后,附着于所述初始候选项供用户进行上屏或查看。
本发明还公开了一种实体输入装置,包括:
序列接收模块,用于接收输入的输入序列;
初始候选项获取模块,用于获取对应输入序列的至少一个初始候选项;
目标对象获取模块,用于基于知识库对所述初始候选项进行语义分析,并根据语义分析结果从知识库查询目标对象;
封装模块,用于将所述目标对象对应的知识内容封装为实体候选项,加载至所述输入序列对应的各候选项中;
展现模块,用于根据所述初始候选项的位置,在候选框中展示所述实体候选项。
优选的,所述目标对象获取模块包括:
词性标记模块,用于基于知识库识别并标记所述初始候选项的各词的标签,得到标记序列;所述标签包括:实体对象、和/或属性词、和/或对应属性词的属性值;
查询分析模块,用于利用上下文无关文法获得的文法集,对所述标记序列进行文法分析,并根据文法分析的结果在知识库中进行匹配查询,以获得知识库中的知识内容作为目标对象。
优选的,所述封装模块包括:
第一封装模块,用于以图片为载体,将所述目标对象的知识内容加入所述图片中,封装为所述实体候选项。
优选的,还包括:
上屏模块,用于当所述初始候选项被触发时,所述实体候选项附着所述初始候选项上屏,供用户进行触发;
或者,
分析展示模块,用于所述实体候选项被点击后,调用对应封装的知识内容在本地进行加载,分析展现对应的知识内容,供当前用户进行查看
优选的,所述知识内容包括媒体对象,
所述媒体对象包括图片、音乐、flash、视频,将所述媒体对象被封装为实体候选项后,附着于所述初始候选项供用户进行上屏或查看。
与现有技术相比,本申请包括以下优点:
本申请选择候选项的对应文本进行语义分析,根据语义分析结果从知识库查询目标对象,封装后加载至各候选项中进行展示,而且将候选项的对应文本进行语义分析,选取更符合当前输入场景的实体候选项加载至各候选项中,使符合用户需求的复杂信息以实体候选项的形式直接、准确地供用户进行输入,提高了输入法的信息容量和输入精度,提高了复杂信息输入的流畅性,从而提高了输入效率。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的其示出了本发明的开发思路架构图;
图2示出了根据本发明一个实施例的一种实体输入方法的流程示意图;
图2A示出了根据本发明一个实施例的一种实体输入方法的规约过程示例;
图2B示出了根据本发明一个实施例的一种实体输入方法的展示界面;
图3示出了根据本发明一个实施例的一种实体输入方法的流程示意图;
图4示出了根据本发明一个实施例的一种实体输入方法的流程示意图;
图5示出了根据本发明一个实施例的一种实体输入方法的流程示意图;
图5A示出了本发明一种实体输入方法的示例一的规约过程示例;
图5B示出了本发明一种实体输入方法的示例一的展示界面;
图5C示出了本发明一种实体输入方法的示例二的规约过程示例;
图5D示出了本发明一种实体输入方法的示例二的展示界面;
图5E示出了本发明一种实体输入方法的候选框的展示界面;
图6示出了根据本发明一个实施例的一种实体输入装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明公开的示例性实施例。
本发明的核心思想之一在于,在输入法系统的传统的输入方式中,以输入法系统对用户的输入序列进行传统识别得到的候选项为基础,选择这些候选项结果中的某个或者某些初始候选项进行语义分析,然后根据语义分析结果从知识库查询目标对象,再将目标对象对应的知识内容封装为实体候选项,加载至各候选项中,与初始候选项一起成为对应输入序列的候选项结果,当用户触发时,所述实体候选项附着所述初始候选项上屏,供用户进行触发。
参照图1,其示出了本发明的核心思路之一的架构图,本发明由用户输入的输入序列,输入法接收所述输入序列,则按传统的执行过程向用户提供候选项,在输入法的执行过程中,本发明选择输入法的某个或者某些候选项基于知识库进行语义分析,通过知识库中的知识内容向用户提供候选项(在本发明中即为实体候选项)。
本发明选取更符合当前输入场景的实体候选项加载至各候选项中,使目标对象可以以图片链接的形式直接展现给用户,可以提高输入的流畅性,不需要用户在不同的应用软件中进行切换,并且提高了输入的信息量和精度,降低了用户输入的成本,提高了输入的效率。
另外,为了更好的理解本发明,下面对涉及到的重要术语进行解释:
输入法系统:其基本过程是用户先输入拼音串,然后输入法将拼音串或五笔序列串转换为字词候选项,用户再选择想要候选项进行上屏,从而完成输入。不同语言、国家、或地区,有多种不同的输入法。本发明以汉字输入方法为例进行描述,汉字输入的编码方法,基本上都是采用将音、形、义与特定的键相联系,再根据不同汉字进行组合来完成汉字的输入的,中文输入法编码可分为几类:音码、形码、音形码、无理码等。输入法发展到现在,无论从深度或者广度来说都已经相当成熟。从最开始的单子,词组输入,到目前的短语,长句联想输入;从单独考虑词频,到目前考虑上下文,互联网词库,输入场景等技术的使用,使得输入法在朝着更快、更准、更智能的方向发展。
知识库:是知识工程中结构化,易操作,易利用,全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中结构化存储、组织、管理和使用的互相联系的知识片集合。这些知识片包括全网中与各领域相关的理论知识、事实数据,由专家经验得到的启发式知识,如某领域内有关的定义、定理和运算法则以及常识性知识等。在本发明中知识库具有实体对象和对应的属性信息。比如,实体对象:对应的一个具体的个体,在明星类别中,比如刘德华,张柏芝,林青霞等,也包含一些宽泛的代表类别的个体,比如人,电影明星,歌手等。属性:就是实体所包含的特性,除了包含属性名称外,每个属性还有一个反应属性值类型的类型变量,比如:[身高:长度],[年龄:整数],[出生日期:日期],[配偶:人名]等。
实施例一
参照图2,其示出了本发明一种实体输入方法的流程示意图,包括:
步骤102,接收输入的输入序列;
比如,用户输入“FEICHANGXINGYUNDESHANGYINGSHIJIAN”,本发明的输入法系统则接收该输入序列。
步骤104,获取对应输入序列的至少一个初始候选项;
用户在调用输入法进行字符输入的过程中,输入法首先会根据已有的执行流程和算法,给出输入法自身的用户候选项。即在输入法系统中,其正常的输入方式即为识别输入序列,在词库中选择与输入序列匹配的字/词,按匹配度生成候选项,然后将各初始候选项排序展现至候选框,为用户已输入的文字候选。
本发明则将输入法系统按正常模式从词库中转换得到的候选项中选择至少一个初始候选项,以进行本发明的特殊处理过程。
优选的,获取对应输入序列的至少一个初始候选项包括:
步骤A10,选择与输入序列匹配度最高的初始候选项或者选择由用户选择确定的排在各候选项首位的作为初始候选项。
在本发明实施例中一般即选择匹配度最高的,即排在各候选项首位的文字候选作为初始候选项,因为对于输入法系统来说,其一般是将与输入序列匹配度最高的初始候选项排在首位。另外,由于用户在输入过程中匹配度最高的字词在各候选项的首位显示,用户在输入较长的输入序列时,很可能需要选择哪些词在各候选项的首位显示。
前述“feichangxingyundeshangyingshijian”,输入法系统得到的各候选项的首位文字候选,即初始候选项为“非常幸运的上映时间”,那么本发明实施例则获取到的该初始候选项进行后续处理。
步骤106,基于知识库对所述初始候选项进行语义分析,并根据语义分析结果从知识库查询目标对象;
本发明选择了初始候选项后,基于知识库的数据结构对初始候选项进行语义分析,分析用户的输入目的,然后根据语义分析结果从知识库查询目标对象,将目标对象加入到候选项来提供用户已输入的文字候选,即初始候选项对应的答案。
语义分析:对于需要机器处理的自然语言,需要采用语义理解模型对句子等进行语义理解,以最终使机器理解句子的意思。比如语义场理论的语义理解模型,格语法的语义理解模型等。
优选的,所述基于知识库对所述初始候选项进行语义分析,并根据语义分析结果从知识库查询目标对象包括:
步骤A20,基于知识库识别并标记所述初始候选项的各词的标签,得到标记序列;所述标签包括:实体对象、和/或属性词、和/或对应属性词的属性值;
在本发明实施例中,知识库的是结构化存储信息的,其结构大致为:实体对象,实体对象下的各属性词、各属性词下的属性值。而本发明则基于知识库识别初始候选项中的各词的词性,即对初始候选项中各词进行标记,即预先对知识库中的词采用标签进行对应,所述标签包括:实体对象的标签、和/或属性词的标签、和/或对应属性词的属性值的标签。
即本发明中,还包括:
步骤A21,针对同一实体对象,根据既定的行业类别构建各行业类别对应的实体对象标签。
在本发明实施例中知识库的实体可以对应的行业类别构建,比如电影、电视、人物、公司、书籍等行业类别,那么可能存在同一实体对象对应不同类别的情况,比如“甄嬛传”可能有电视类的,也有书籍类的,那么需要针对不同类别的实体对象构建不同行业类别的实体对象对应的标签,比如<PERSON>、<MOVIE>、<TV><COMPANY>、<BOOK>等各行业类别的实体对象标签。
在本发明实施例中,还可根据知识类别构建各行业类别对应的实体对象标签。比如名人,植物,汽车等按知识内容分的类别。
当然,为了对初始候选项的除了上述词之外的其他中间词也进行标记,本发明的标签还可包括中间词标签。在本发明实施例中除了实体对象、属性词、属性值之外的词均可用中间词标签,即本发明实施例对于比如“的”,“啦”,“啊”等无意义的词或字,动词“看看”“读读”等动词,还有简单且有独立语义的文字段,比如“能否帮我”,“你知不知道”,“帮我查一下”等都可作为中间词。在本发明实施例中,主要会识别实体对象、属性词、属性值,这三种词之外的词都可设置为中间词,本发明可根据实际词的使用情况构建中间词表,比如前述的动词、无意义的词、单独且有独立语义的文字段,形容词等等。
优选的,基于知识库识别并标记所述初始候选项的各词的标签,得到标记序列包括:
步骤S10,遍历中间词表,对所述初始候选项中的中间词进行中间词标记;
在本发明实施例中首先会对初始候选项进行分词,然后进行标记。本发明实施例中,对中间词也会进行词性划分,比如动词、形容词、或者的、得等无意义的词等,并且可对不同类别下的中间词进行编号,以进一步划分子类别,比如动词,其标签可为<POS_VERB_ID>,ID为各种动词的编号,不同的动词有不同的编号,其在语料库中与不同的名词、形容词组合的概率不同。那么在进行中间词标记时,则可采用上述标签。
步骤S12,遍历实体对象表,对所述初始候选项中的实体对象进行标记;
本步骤进行实体识别,通过预先制作的知识库的实体对象表,将候选项中的实体对象标示出来。
步骤S13,根据每个实体对象的标签对应的所属行业类别,遍历相应行业类别中的属性词表,对所述初始候选项中的各属性词进行属性词标记。
本步骤进行实体对象中的各属性进行识别,通过知识库里的结构化数据,将用户输入串中的实体对象对应的属性词也进行标记,例如,“年龄”,“身高”是各种作为实体对象的“人”对应的属性词,“导演”,“演员”等是各种作为实体对象的“电影”、“电视剧”对应的属性词。
另外,在本发明实施例中属性词也可按行业类别进行分类,也可对各分类下的属性词进行编号标记,以进一步划分子类别。
比如,对于前述初始候选项“非常幸运的上映时间”,可识别获得标记序列:
“非常幸运<MOVIE>的<POS_DEG>上映时间<P_MOVIE_5>”。
步骤A22,利用上下文无关文法获得的文法集,对所述标记序列进行文法分析,并根据文法分析的结果在知识库中进行匹配查询,以获得知识库中的知识内容作为目标对象。
在本发明中对于得到的标记序列,可进行文法分析,得到查询序列,基于查询序列去知识库中的知识内容进行匹配查询以获得目标对象。
文法的定义描述语言语法结构的形式规则称为文法。文法通常定义为四元组:
G=(VN,VT,P,S)
VN——非终结符号集
VT——终结符号集
P——产生式或规则的集合
S——开始符号(识别符号),S∈VN
产生式是一个有序对(U,X),通常写为:U→X;非终结符号出现在产生式的左部,且能推出符号或符号串的那些符号,其全体构成非终结符号集,记为VN。终结符号不出现在产生式的左部,且不能推出符号或符号串的那些符号。
本发明则基于上述文法定义构建的文法集进行文法分析。
优选的,所述利用上下文无关文法获得的文法集,对所述标记序列进行文法分析,并根据文法分析的结果在知识库中进行匹配查询,以获得知识库中的知识内容作为目标对象包括:
步骤A30,利用上下文无关文法获得的文法集,对所述标记序列进行文法分析,将文法分析结果进行转换以得到机器查询语言;
本发明可针对输入序列的文法分析结果对应机器查询语言,根据对应关系将文法分析结果进行转换,得到机器查询语言,比如SQL语言。
优选的,所述将所述标记序列进行文法分析,将文法分析结果进行转换得到机器查询语言包括:
子步骤S30,利用以上下文无关文法确定的文法集,对所述标记序列进行递归规约,并根据规约子句与初始SQL子句的对应关系,将递归规约过程中出现的子语句进行记录;
在本发明实施例中,以上下文无关文法确定文法集,并将文法集的规约子句对应SQL子句,那么在扫描标记序列中的标记时,即可并根据规约子句与初始SQL子句的对应关系,将递归规约过程中出现的子语句进行记录。在本发明中,本步骤只扫描SQL子句中的标签,包括实体对象标签、属性词标签、中间词标签等。
在本发明利用以上下文无关文法确定的文法集,对所述标记序列进行递归规约之前,还包括,去掉中间词标签。
子步骤S32,当规约结束时,根据各初始SQL子句的归属关系、以及各初始SQL语句使用的标签中对应的词,组装为完整SQL语句。
在获得各SQL语句后,即可根据各初始SQL子句的归属关系、以及各初始SQL语句使用的词性标记中对应的词,组装为完整SQL语句。
以前述标记序列“非常幸运<MOVIE>的<POS_DEG>上映时间<P_MOVIE_5>”为例,说明上述利用文法集规约的过程,如图2A:
本发明实施例在开始规约时,只扫描被标记的标签,上述标记序列中标签的顺序为“<MOVIE><POS_DEG><P_MOVIE_5>”,本发明实施例中,首先将序列传中的中间词标记去掉中间词对应的标签<POS_DEG>,然后从左向右扫描,遇到实体对象标签<MOVIE>,则在文法集合中进行查找,找到对应的规约子句“<MOVIE>→<ENTITY>”,则将实体对象标签<MOVIE>规约到<ENTITY>,同时保存当前规约语句的SQL子句“SQL:SELECT*WHERE NAME=“<ENTITY>””。同样标签属性词标签<P_MOVIE_5>会被“<P_MOVIE_5>→<PROPERTY>”规约到<PROPERTY>,该规约子句没有相应的SQL子句,第一轮扫描完成,检查状态没有进入到结束标签<S>。则递归进入新一轮规约,以规约后的标签组合在文法集中找到“<ENTITY><PROPERTY>→<VALUE>”,则进行规约到<VALUE>,同时记录SQL子句“SQL:SELECT<PROPERTY>FROM<ENTITY>”,最后进行规约“<VALUE>→<S>”,检查到<S>,则进入到规约结束状态。
当结束时,则根据SQL语句的归属关系,将SQL:SELECT*WHERE NAME=“<ENTITY>”包含于SQL:SELECT<PROPERTY>FROM<ENTITY>,使用到的<PROPERTY>对应属性词“上映时间”,<ENTITY>对应实体对象“非常幸运”,那么即可得到最终的SQL语句:SELECT上映时间FROM(SELECT*WHERE NAME=“非常幸运”)。
上述例子使用到的文法集包括下表一的内容:
表一
优选的,所述利用以上下文无关文法确定的文法集,对所述标记序列进行递归规约,并根据规约子句与初始SQL子句的对应关系,将递归规约过程中出现的子语句进行记录包括:
步骤A43,当在向下一轮进行规约的过程中,查找到至少两个规约结束子句时,则选择最长的规约序列进行规约。
因为每一轮规约得到的标记,按照这一轮的标记查找规约子句时,因为标记存在多个比如第一轮规约得到的标签,包括<ENTITY>,<PROPERTY>,那么下一轮规约的组合包括<ENTITY>,或者<PROPERTY>,或者<ENTITY>+<PROPERTY>,那么本发明则选择最长的规约序列(即<ENTITY><PROPERTY>)进行规约。
本发明在构建文法集时,为了降低歧义,根据句子的结构和习惯设计了以最长规约组合进行规约的方式,使其规约结构更符合句义。
步骤A32,根据所述机器查询语言在知识库中进行查询,将得到的知识内容作为目标对象。
执行所述最终的SQL语句在知识库查询目标对象,即先从知识库查询到实体对象“非常幸运”,再在实体对象“非常幸运”下查询属性“上映时间”,从而得到查询结果,即为上映时间为“2013年9月19日”。
在本发明实施例中,规约是将所有的标签组合最终规约到一个非结束标记上,再由该非结束标签规约到结束标签上。
步骤108,将所述目标对象对应的知识内容封装为实体候选项,加载至所述输入序列对应的各候选项中;
本发明可将目标对象的知识内容封装为实体候选项,比如将前述的2013年9月19日,封装为文本类的实体候选项“2013-9-19”加载至所述输入序列对应的各候选项中。
步骤110,根据所述初始候选项的位置,在候选框中展示所述实体候选项。
将前述“2013-9-19”在首位的候选项“非常幸运的上映时间”之后的第二候选项上展示。如图2B是最后展示给用户的输入界面。当上屏之后,用户不用再另行去打开浏览器查询要获知的目标信息,再将目标信息继续输入,直接选择选项2就能够得到当前问题的答案,提高了输入的效率。
在其他实施例中,目标对象“2013-9-19”可直接附在初始候选项“非常幸运的上映时间”之后,则在首位处的候选项直接显示“非常幸运的上映时间2013-9-19”,从而通过语义分析提供了用户输入文字候选的答案。
当同一实体对象的实体候选项存在多个时,本发明则分别将多个实体候选项排序在候选框中展现。排序时可采用多种方法,在此不加以限制。
另外,本发明实施例中所述知识内容包括媒体对象,所述媒体对象包括图片、音乐、FLASH、视频.那么将所述媒体对象被封装为实体候选项后,供用户直接进行上屏触发。
当然在本发明实施例中,对候选项进行语义分析,查找目标对象,可在服务器侧执行,将目标对象对应的知识内容封装为实体候选项也可在服务器侧执行。
本发明实施例在输入法系统的传统的输入方式中,以输入法系统对用户的输入序列进行传统识别得到的候选项结果为基础,选择这些候选项结果中的某个或者某些初始候选项进行语义分析,然后根据语义分析结果从知识库查询目标对象表示的复杂信息,再将目标对象对应的知识内容封装为实体候选项加载至各候选项中,与初始的候选项一起成为对应输入序列的候选并展示。因此本发明可以提高输入的流畅性,不需要用户在不同的场景中进行切换,降低了用户输入复杂信息的成本,提高了输入的效率。
实施例二
参照图3,其示出了本发明一种实体输入方法的流程示意图,包括:
步骤202,接收输入的输入序列;
步骤204,获取对应输入序列的至少一个初始候选项;
步骤206,基于知识库对所述初始候选项进行语义分析,并根据语义分析结果从知识库查询目标对象;所述目标对象包括实体对象、或实体对象的属性词、或属性词的属性值;
在本发明实施例中,分析初始候选项得到的目标对象可能为实体对象,比如用户输入“北京大学”,则分析得到的结果就为实体“北京大学”;但是不一定只是实体本身,也可能为属性词的属性值,比如前述“非常幸运的上映时间”,对应进行语义分析得到的目标对象为属性“上映时间”的值“2013-09-19”;也可能为实体对象的某个属性,比如“刘德华与朱丽倩的关系”,对应进行语义分析可得到的实体对象“刘德华”下的属性“妻子”等。对上述的实体对象、属性词、属性值以相应标签进行标记。
步骤208,将所述目标对象对应的知识内容封装为实体候选项,加载至所述输入序列对应的各候选项中;
如上所述,因为目标对象可为实体对象、或实体对象的属性词、或属性词的属性值,但是对应实体或实体对象的属性词、或属性词的属性值的知识内容,本发明实施例还是可以将其封装为实体候选项,比如,以实体图片为载体,将对应的知识内容加入所述图片中。
步骤210,根据所述初始候选项的位置,在候选框中展示所述实体候选项。
本发明实施例与实施例一类似的步骤原理类似,在此不加以赘叙。
实施例三
参照图4,其示出了本发明优选的一种实体输入方法的流程示意图,包括:
步骤302,接收输入的输入序列;
步骤304,获取对应输入序列的至少一个初始候选项;
步骤306,基于知识库识别并标记所述初始候选项的各词的标签,得到标记序列;其中,对不同类别的实体对象标记相应行业类别的标签。
对应的,本发明实施例还包括:
步骤S307,针对同一实体对象,根据既定的行业类别构建各行业类别对应的实体对象标签。
在本发明实施例中知识库的实体可以对应的行业类别构建,比如电影、电视、人物、公司、书籍等行业类别,那么可能存在同一实体对象对应不同类别的情况,比如“甄嬛传”可能有电视类的,也有书籍类的,那么需要针对不同类别的实体对象构建不同行业类别的标签,比如<PERSON>、<MOVIE>、<TV><COMPANY>、<BOOK>等行业类别的标签。从而在识别时可以识别不同类型的实体对象。即实际中,同一词可能对应不同类别的实体对象,那么为了确认在该语言环境中到底将该实体对象采用何种类型的标签,需要根据实体对象的上下文环境确定。比如初始候选项“看看射雕英雄传电视剧”和初始候选项“读读射雕英雄传的书”中,“射雕英雄传”在前者的环境中应该是电视剧,那么实体对象标记为<TV>,在后者的环境中应该是书籍的,那么实体对象应标记为<BOOK>。
其中,所述基于知识库的各词性列表,识别并标记所述初始候选项的各词的标签,得到标记序列包括:
子步骤C10,当对一实体对象对应不同行业类别的实体对象进行标记时,分别将所述实体对象的标签与所述实体对象上下文的其他分词对应的词性标签进行组合,获得标记序列;
比如,对输入法的初始候选项“看看射雕英雄传”,进行词语切分和标记识别,得到如下的标记序列:“看看<POS_VERB_1>射雕英雄传<TV><BOOK>”,“射雕英雄传”这个实体对象会被打上两个行业类别的标签,既可能是电视剧,也有可能是书籍。那么本发明会首先将得到两个标记序列:
(A)<POS_VERB_1><TV>
(B)<POS_VERB_1><BOOK>
子步骤C12,将所述各标记序列分别与既定的匹配模板进行匹配,确定最终的标记序列作为目标序列,以在文法集中进行文法分析。
本发明实施例中,则会将上述的各标记序列分别与匹配模板进行匹配,将匹配度高的标记序列确定为最终的标记序列。
优选的,所述将所述各标记序列分别与既定的匹配模板进行匹配,确定最终的标记序列包括:
子步骤C13,将所述各标记序列分别与既定的匹配模板进行匹配,选择出现概率最大的标记序列作为目标序列。
本实施例中,选择出现概率最大的标记序列作为目标序列。如前述例子中,预先根据大量的语料数据进行统计分析,判断各种分词对应的词性,如名词、动词、形容词的搭配规则,使某一类的作为实体对象的名词在哪种匹配情况下的概率最大。比如,和动词“看看”搭配的时候,后面的实体对象的行业类别的标签为电视剧或者电影的概率要大于书籍,则针对动词<POS_VERB_1>+实体对象<TV>的匹配模板。因此,上述例子中,则选择标记序列:<POS_VERB_1><TV>作为最终的标记序列。
优选的,基于知识库的各词性列表,识别并标记所述初始候选项的各词的标签,获得标记序列包括:
步骤S10,遍历中间词表,对初始候选项中的中间词进行标记;
步骤S12,遍历实体对象表,对所述初始候选项中的实体对象进行标记;
步骤S14,根据每个实体对象的标签对应的所属行业类别,遍历相应行业类别中的属性词表,对所述初始候选项中的各属性词进行属性词标记。
在本发明中,可在知识库中维护一个中间词表、实体对象表,和对应的属性词表。各词表中均有词与标签之间的对应关系。
本步骤进行实体对象中的各属性进行识别,通过知识库里的结构化数据,将用户输入串中的实体对象对应的属性词也进行标记,例如,“年龄”,“身高”是各种作为实体对象的“人”对应的属性词,“导演”,“演员”等是各种作为实体对象的“电影”、“电视剧”对应的属性词。
另外,在本发明实施例中属性词也可按行业类别进行分类,也可对各分类下的属性词进行编号标记,以进一步划分子类别。在本发明实施例中的属性有两种:一种是基本属性<P_TYPE_ID>:其中,TYPE表示实体对象的类别,比如PERSON,即上面提到的ID表示属性编号。另一种是表格属性<P_A_TYPE_ID>,TYPE和ID含义同上,A表示该属性为表格属性,表格属性主要是指该属性值需要用一个二维表格来表示。那么在进行标记时则可对上述属性词进行标记。
优选的,在所述识别并标记所述初始候选项的各词的标签时包括:
步骤S15,识别所述属性词所属的编号,在所述在属性词的标签中添加所述词性对应的编号。
即如前所述的<P_TYPE_ID>或者<P_A_TYPE_ID>,ID即为编号。
在本发明中,可基于知识库构建中间词表、实体对象表,对应实体对象表的属性词表等数据结构,从而在对初始候选项进行识别和标记时可利用上述表进行识别。
步骤308,利用上下文无关文法获得的文法集,对所述标记序列进行文法分析,并根据文法分析的结果在知识库中进行匹配查询,以获得知识库中的知识内容作为目标对象;
子步骤C30,利用上下文无关文法获得的文法集,对所述标记序列进行文法分析,将文法分析结果进行转换以得到机器查询语言;
利用以上下文无关文法确定的文法集,对所述标记序列进行递归规约时,根据规约子句与初始SQL子句的对应关系,将递归规约过程中出现的子语句进行记录分析;
以所述标记序列的首个标签开始,基于文法集进行递归规约的过程中,根据属性词标记的词性确认下一轮的规约子句,直至子句规约完毕,规约到结束标记为止。在本发明实施例中第一轮规约中,实体对象对应的标签被规约到<ENTITY>,属性词的标签规约到<PROPERTY>,而进行下一轮规约时,由于上述的过程基本上类似,根据属性词标签对应的词性查找相匹配的规约子句。比如,如果属性词对应的标签为<P_A_PERSON_1>,则意味着其属性值也为实体对象,那么<ENTITY>+<PROPERTY>需要规约到<ENTITY>。
所述将递归规约过程中出现的子语句进行记录包括:
子步骤C31,以所述标记序列的首个标签开始,在基于文法集进行递归规约过程中,根据属性词标签的编号确认下一轮的规约子语句,直至子语句规约完毕。
比如,图2A中:
<MOVIE>→<ENTITY>,<P_MOVIE_5>→<PROPERTY>;则下一轮规约标签组合为<ENTITY>+<PROPERTY>;
图5A中:
<PERSON>→<ENTITY>,<P_A_PERSON_1>→<PROPERTY>;下一轮规约标签组合也为<ENTITY>+<PROPERTY>;
那么各自进行下一轮规约选择规约子句时,有多个规约子句:<ENTITY><PROPERTY>→<ENTITY>,<ENTITY><PROPERTY>-><VALUE>,根据属性词标签的编号确认下一轮的规约子语句,比如<P_MOVIE_5>,在预置文法集时,属性词标签的编号5对应的属性值是数值,需要选择<VALUE>;比如<P_A_PERSON_1>,在预置文法集时,属性词标签的编号5对应的属性值是实体对象,需要选择<ENTITY>。因此图2A中选择<ENTITY><PROPERTY>-><VALUE>规约子句。图5A中选择<ENTITY><PROPERTY>→<ENTITY>规约子句。
子步骤C302,当规约结束时,根据各初始SQL子句的归属关系、以及各初始SQL语句使用的词性标记中对应的词,组装为完整SQL语句
子步骤C32,根据所述机器查询语言在知识库中进行查询,将得到的知识内容作为目标对象。
本发明实施例中可根据完整SQL语句在知识库查询目标对象;
步骤310,将所述目标对象对应的知识内容封装为实体候选项,加载至所述输入序列对应的各候选项中;
优选的,所述将所述目标对象对应的知识内容封装为实体候选项包括:
子步骤C20,以图片为载体,将所述目标对象的知识内容加入所述图片中,封装为所述实体候选项。
在本发明实施例中实体候选项可为图片形式,也可在图片中添加相关的链接,比如实体北京大学,可以取北京大学的正门图片,北京大学,然后在该图片中添加介绍、周边美食、交通等信息的链接进行封装,再将封装好的实体候选项加载至输入序列对象的各候选项中。
在本发明中当目标对象包括多个时,则将多个目标对象对应的知识内容封装为实体候选项,并分别加载至所述输入序列对应的各候选项结果中。
当然对于文本类型的知识内容也可以直接封装为文字类型的实体候选项。
步骤312,根据所述初始候选项的位置,在候选框中展示所述实体候选项。
优选的,还包括:
步骤314,当所述初始候选项被触发时,所述实体候选项附着所述初始候选项上屏,供用户进行触发。
当用户选择所述初始候选项时,则所述实体候选项则可附着在初始候选项后面,供用户进行触发。
当然本发明实施例还可根据用户直接对实体候选项的选择,将实体候选项上屏,被触发以及上屏方式本发明不对其加以限制。对于本发明封装的图片形式的实体候选项,可在用户确定输入时,进行上屏,然后提供给用户进行触发。比如实体候选项的上屏的内容中包括了链接,用户则可点击链接查看相应的内容。
本实施例每个步骤的原理类似实施例一和实施例二的描述,在此不再详述。
实施例四
参照图5,其示出了本发明优选的一种实体输入方法的流程示意图,包括:
步骤402,在移动设备中接收输入的输入序列;
步骤404,获取对应输入序列的至少一个初始候选项;
步骤406,基于知识库识别并标记所述初始候选项的各词的标签,得到标记序列;其中,当对一实体对象对应不同行业类别的实体对象进行标记时,分别将所述实体对象的标签与所述实体对象上下文的其他分词对应的词性标签进行组合,获得标记序列;将所述各标记序列分别与既定的匹配模板进行匹配,确定最终的标记序列作为目标序列,以便在文法集中进行文法分析。
步骤408,利用以上下文无关文法确定的文法集,对所述标记序列进行递归规约,并根据规约子句与初始SQL子句的对应关系,将递归规约过程中出现的子语句进行记录;其中,当在向下一轮进行规约的过程中,查找到至少两个规约结束子句时,则选择最长的规约序列进行规约;以所述标记序列的首个标签开始,在基于文法集进行递归规约过程中,根据属性词标签的编号确认下一轮的规约子语句,直至子语句规约完毕。
步骤410,当规约结束时,根据各初始SQL子句的归属关系、以及各初始SQL语句使用的标签中对应的词,组装为完整SQL语句;
步骤412,根据完整SQL语句在知识库查询目标对象;
步骤414,将所述目标对象对应的知识内容封装为实体候选项,加载至所述输入序列对应的各候选项中;
步骤416,移动设备根据所述初始候选项的位置,在候选框中展示所述实体候选项。
优选的,还包括:
步骤418,当用户使用本移动设备,触发所述初始候选项时,所述实体候选项附着所述初始候选项上屏,供用户进行触发。
本实施例用于移动设备,供移动设备进行输入,每个步骤的原理类似实施例一的描述,在此不再详述。
在其他实施例中,所述知识内容包括媒体对象,所述媒体对象包括图片、音乐、flash、视频等,实体对象中一旦具有媒体对象的属性信息,可以分别封装为实体候选项。
如在实体对象“华山”中,将一介绍“华山”风光的视频单独封装为实体候选项,当用户输入“xinshangxiahuashan”时,在候选区域则对应加载该媒体对象的实体候选项,可以该视频对应的首帧图片的形式进行显示,经语义分析将该视频作为实体候选项后,根据输入环境设定触发播放的相应策略,如在QQ等聊天类环境中,与初始候选项“欣赏下”一起发送至聊天对象后直接进行播放。在word等办公类环境中,可嵌入输入区域中待用户触发后进行播放。知识内容中的媒体对象为图片时,可根据图片的拍摄周期、主题等属性进行划分后打包封装为实体候选项,并以首张图片作为封面,经语义分析将该组图片作为实体候选项后,该组图片与初始候选项一起上屏,并调用本地或网络浏览插件对该组图片中的各图片进行浏览,从而使用户可以直接输入视频、音乐、图片等媒体对象,进一步提高了输入法的信息容量,加快输入效率。
当实体候选项在各候选项中的数量大于一个时,特别是实体候选项对应的知识内容含有媒体对象时,根据输入的匹配符进行匹配;所述匹配符与各实体候选项对应的知识内容所属的行业类别一一对应,可在封装时根据该实体候选项对应的行业类别进行设定。
如在用户在QQ等聊天类环境中,输入“kankanshediao”时,其中经语义分析得到,“shediao”对应剧集“射雕英雄传”,但该剧集有多个版本。对剧集类型的实体对象“射雕英雄传”对应知识内容中的各属性进行筛选,实时选择在线播放地址、下载链接等播放类属性信息打包封装为实体候选项,则将“黄日华”或“huangrihua”作为该实体候选项对应的匹配符,用户输入“kankanshediao”后,如进一步输入“huangrihua”,即与匹配符“黄日华”对应的匹配度最大。相应的,“射雕英雄传”黄日华版对应的实体候选项则从各实体候选项中筛选出来,可设置将其排在各候选项的首位,供用户进行优先触发。匹配符还可以与各实体候选项对应的知识内容所属的标识相对应。如在QQ等聊天类环境中,用户欲给对方放一段“射雕英雄传”黄日华版的第51集的视频,则输入“kankanshediao”和“huangrihua”后,本应调用封装完毕的实体对象“射雕英雄传”对应知识内容中各集的视频作为实体候选项,但用户再继续进一步输入“wushiyi”或“51”时,则与每个视频对应的标识,即各剧集视频中对应的集数相匹配,则在“射雕英雄传”所属的各视频剧集中继续进行匹配,与第51集的视频文件对应的匹配符“51”匹配度最大,则将该视频作为媒体对象筛选出来后进行封装,可设置将其排在各候选项的首位,供用户进行优先触发,触发后用户可以发给对话方播放或是自行观看,从而在提高输入法的信息容量的同时,进一步对匹配的多个实体候选项进行筛选,提高了输入效率。
在其他实施例中,所述实体候选项被点击后,调用对应封装的知识内容在本地进行加载。展现字符序列对应的实体候选项后,可以在输入法系统的候选区域接受当前用户对于实体候选项的点击触发。实体候选项被触发后,分析加载对应的知识内容,供当前用户直接进行查看,不仅可供当前用户进行欣赏,而且也可以供当前用户对待上屏的实体候选项进行查看校验,特别是进行QQ聊天时,实体候选项需被发送给对话方供其触发,当前用户必须保证上屏的实体候选项所封装的知识内容符合自己的本意。如在用户的输入序列中包含“huashan”时,候选区域则对应加载“华山”的多个视频形式的实体候选项,用户如欲上屏一个介绍华山自然风光的视频,则可以分别点击触发候选区域中的多个视频形式的实体候选项,这些实体候选项则分别调用对应的知识内容,即加载播放链接,在当前用户的本地加载播放插件进行播放,使用户将介绍华山历史、华山文化等视频形式的实体候选项筛选掉,从而提高了上屏信息的精确度,保证了输入效率。在word等办公类环境中也同理,保证了文档中上屏的实体候选项对应知识内容的准确度。还可以加载知识内容后,自动地在本地对展现的各实体候选项封装的知识内容进行分析,根据输入时对应的上下文信息和/或对初始候选项进行语义分析的结果,从各实体候选项对应的知识内容中筛选出符合当前语境的实体候选项。如对本地加载的三个关于“华山”视频的实体候选项进行图像帧分析和页面分析,分别与“风景”、“历史”、“文化”三个既定类别的匹配度最大,则根据word等办公类环境中上下文,将“文化”类型的“华山”视频作为实体候选项进行播放,供当前用户进行查看,从而保证上屏的实体候选项所封装的知识内容符合自己的本意。
所述实体候选项在各候选项中的数量大于一个时,由于候选区域面积的限制,不便于加载过多的实体候选项,则将各实体候选项可以集中设置,将其分别加载至在候选区域既定设置的二级菜单中。在用户查看实体候选项时,首先触发弹出该二级菜单,则展示各实体候选项。在二级菜单中的某个实体候选项接收到用户的触发信号时,可以直接上屏,供当前用户或对话方进行触发;也可以直接在本地加载所述实体候选项对应的知识内容,供当前用户进行欣赏或者上屏前对实体候选项的筛选。
为了更好的描述本发明实施例,下面以另外几个例子对本发明实施例进行说明:
示例一:
1、用户输入“xietingfengdeerzishi”,输入法基于该输入序列得到一些候选项,一般在排在首位的候选项为“谢霆锋的儿子是”,本发明则选择该候选项作为初始候选项;
2、将初始候选项进行语义分析时,首先进行分词和标记,获得标记序列:
谢霆锋<PERSON>的<POS_DEG>儿子<P_A_PERSON_1>是<POS_VC>
3、针对上述标记序列,将中间词标记<POS_DEG>和<POS_VC>标记会作为不重要的标签先去掉,然后进行文法规约:
其规约过程涉及的文法集中的规约子句如下表二:
表二
文法规约过程大致如图5A所示:
首先,根据文法集合中的“<PERSON>→<ENTITY>”将标记序列中的“<PERSON>”规约到实体对象标签“<ENTITY>”,之后将“<P_A_PERSON_1>”规约到属性词标签“<PROPERTY>”。完成第一轮规约之后,发现没有到达指定的终止符。因此,接着进行第二轮规约,在进行第二轮的时候,服务器提供两个规约子句可供选择,一是<ENTITY>→<S>,二是<ENTITY><PROPERTY>→<ENTITY>,此时规约有一个优先原则,那就是选择最长的规约子句进行规约,因此选择后者,同时记录SQL子句,此轮结束后仍然没有到终止符。然后进行第三轮规约,将<ENTITY>→<S>,到达了规约终点。生成最终的SQL查询语句:
SELECT儿子FROM(SELECT*WHERE NAME=“谢霆锋”)
4、将查询语句提交到知识库中进行检索,会检索得到两个实体对象的结果。当发现查询结果是实体对象时,在候选项拼装的时候会将实体对象对应的图片,实体对象的链接,实体对象的描述信息整合在一起,封装为一个图文并茂的实体候选项,使用户能够更全面的理解和消费当前的信息。例如当前例子的查询结果为实体对象“谢振南”和“谢正轩”,则可以从知识库中检索出的知识内容分别以图片的形式封装为一个可以供触发的实体候选项。
5、将实体候选项进行展示,实体候选项可展示在输入法传统候选项的下发,如图5B。
本示例表示的是对于用户的输入串,通过意图分析以及知识库的查询,相关问题的答案是一个或者多个实体对象,则可以将实体对象的知识内容封装为实体候选项附加在候选框中作为候选,本发明利用知识库封装了知识内容的实体候选项,充分利用了知识库中记录的实体信息,比如图片、属性等信息,使待输入的复杂信息以实体对象的形式直接、准确地供用户进行输入,提高了输入法的信息容量,加快了输入效率。
示例二
1、用户输入“kankanshediaoyingxiongzhuan”,输入法基于该输入序列得到一些候选项,一般排在首位的候选项为“看看射雕英雄传”,本发明则选择该候选项作为初始候选项;
2、将初始候选项进行语义分析时,首先进行分词和标记,获得标记序列:看看<POS_VERB_1>射雕英雄传<TV><BOOK>”,
从当前的标记序列可以看到,“射雕英雄传”这个实体对象会被打上两个行业类别的标签,即实体对象“射雕英雄传”既可能是“电视剧”的类别,也有可能是“书籍”的类别。本实施例中将其拆分为两个序列:
(A)<POS_VERB_1><TV>
(B)<POS_VERB_1><BOOK>
如前所述,匹配模板中动词“看看”后面搭配的实体对象对应类别为“电视剧”或者“电影”的概率要大于“书籍”的概率,则本发明选择序列(A)<POS_VERB_1><TV>。
3、针对上述标记序列,先将标签<POS_VERB_1>作为可有可无的标签去掉,然后进行文法规约:
其规约过程涉及的文法集中的规约子句如下表三:
表三
文法规约过程大致如图5C所示:
<TV>→<ENTITY>,再由<ENTITY>→<S>,完成整个规约过程,转换生成查询语句:
SELECT*WHERE NAME=“射雕英雄传”AND TYPE=“电视剧”
4、在知识库中,电视剧类别的“射雕英雄传“还有多个版本,因此针对每个版本分别封装一个实体候选项。
5、按照一定的规则(比如上映时间)将各实体候选项进行排序,在候选框中进行展示,如图5D。
示例三
1、用户输入“dudushediaoyingxiongzhuan”,输入法基于该输入序列得到一些候选项,一般排在首位的候选项为“读读射雕英雄传”,本发明则选择该候选项作为初始候选项;
2、将初始候选项进行语义分析时,首先进行分词和标记,获得标记序列:“读读<POS_VERB_2>射雕英雄传<TV><BOOK>”,
从当前的标记序列可以看到,“射雕英雄传”这个实体对象会被打上两个行业类别的标签,即实体对象“射雕英雄传”既可能是“电视剧”的类别,也有可能是“书籍”的类别。本实施例中将其拆分为两个序列:
(A)<POS_VERB_2><TV>
(B)<POS_VERB_2><BOOK>
如前所述,匹配模板中动词“读读”后面搭配的实体对象对应类别为“电视剧”或者“电影”的概率要小于“书籍”的概率,则本发明选择序列(B)<POS_VERB_2><BOOK>。
3、针对上述标记序列,先将标签<POS_VERB_2>作为可有可无的标签去掉,其规约过程类似示例二,得到查询语句:
SELECT*WHERE NAME=“射雕英雄传”AND TYPE=“书籍”
4、在知识库中,将“射雕英雄传”的书籍相关内容封装为实体候选项。
5、在候选框中进行展示,如图5E。
用户可以对上屏的知识内容进行调用和浏览,即可直接在需要输入的实体对象地方插入与当前语义环境相匹配丰富的知识内容,特别是针对多义性的各实体对象,根据语义分析的结果直接给出符合用户需求的实体对象供用户消费。提高了信息容量和复杂信息准确度,提高了输入效率。
实施例六
参照图6,其示出了本发明一种实体输入装置的结构示意图,包括:
序列接收模块602,用于接收输入的输入序列;
初始候选项获取模块604,用于获取对应输入序列的至少一个初始候选项;
目标对象获取模块606,用于基于知识库针对所述初始候选项进行语义分析,并根据语义分析结果从知识库查询目标对象;
优选的,所述目标对象获取模块包括:
词性标记模块,用于基于知识库的各词性列表,识别并标记所述初始候选项的各词的词性,得到标记序列;所述词性包括:实体对象标记、和/或属性词标记、和/或对应属性词的属性值标记;
优选的,还包括:
多义实体对象构建模块,用于针对同一实体对象,根据既定的行业类别构建各行业类别对应的实体对象标签;
进一步的,所述词性标记模块包括:
多义词确定模块,用于针对对应不同类别实体对象标记的实体对象,根据实体对象上下文环境确定所述实体对象上下文环境所属类别的实体对象标记,进而获得标记序列。
优选的,所述词性标记模块还包括:
多序列获取模块,用于当对一实体对象对应不同行业类别的实体对象进行标记时,分别将所述实体对象的标签与所述实体对象上下文的其他分词对应的词性标签进行组合,获得标记序列;
第一多义词确定模块,用于将所述各标记序列分别与既定的匹配模板进行匹配,确定最终的目标序列。
优选的,所述第一多义词确定模块包括:
第二多义词确定模块,用于将所述各标记序列分别与既定的匹配模板进行匹配,选择出现概率最大的标记序列作为目标序列。
所述词性标记模块包括:
实体对象标记模块,适于遍历实体对象表,对所述初始候选项中的实体对象进行标记;
属性词标记模块,适于根据每个实体对象的标签对应的所属行业类别,遍历相应行业类别中的属性词表,对所述初始候选项中的各属性词进行属性词标记。
查询分析模块,用于利用上下文无关文法获得的文法集,对所述标记序列进行文法分析,并根据文法分析的结果在知识库中进行匹配查询,以获得知识库中的知识内容作为目标对象。
优选的,所述目标对象包括:
实体对象、或实体对象的属性词、或属性词的属性值。
所述查询分析模块包括:
查询分析模块包括:
分析转换模块,用于利用上下文无关文法获得的文法集,对所述标记序列进行文法分析,将文法分析结果进行转换以得到机器查询语言;
查询模块,用于根据所述机器查询语言在知识库中进行查询,将得到的知识内容作为目标对象。
所述分析转换模块包括:
递归分析模块,用于利用以上下文无关文法确定的文法集,对所述标记序列进行递归规约,并根据规约子句与初始SQL子句的对应关系,将递归规约过程中出现的子语句进行记录;
SQL组装模块,用于当规约结束时,根据各初始SQL子句的归属关系、以及各初始SQL语句使用的标签中对应的词,组装为完整SQL语句。
所述词性标记模块包括:
第一词性标记模块,用于识别所述属性词所属的编号,在所述在属性词的标签中添加所述词性对应的编号;
进一步的,所述递归分析模块包括:
第一递归选择模块,用于以所述标记序列的首个标签开始,在基于文法集进行递归规约过程中,根据属性词标签的编号确认下一轮的规约子语句,直至子语句规约完毕。
优选的,所述递归分析模块包括:
第二递归选择模块,用于当在向下一轮进行规约的过程中,查找到至少两个规约结束子句时,则选择最长的规约序列进行规约。
封装模块608,用于将所述目标对象对应的知识内容封装为实体候选项,加载至所述输入序列对应的各候选项中;
优选的,所述封装模块包括:
第一封装模块,用于以图片为载体,将所述目标对象的知识内容加入所述图片中,封装为所述实体候选项。
展现模块610,用于根据所述初始候选项的位置,在候选框中展示所述实体候选项。
优选的,还包括上屏模块,用于当所述初始候选项被触发时,所述实体候选项附着所述初始候选项上屏,供用户进行触发;或者,
分析展示模块,用于所述实体候选项被点击后,调用对应封装的知识内容在本地进行加载,分析展现对应的知识内容,供当前用户进行查看。
另外,本发明实施例中所述知识内容包括媒体对象,所述媒体对象包括图片、音乐、FLASH、视频。那么封装模块608将所述媒体对象被封装为实体候选项,上屏模块将所述实体候选项附着于初始候选项进行上屏,供用户直接进行上屏触发。
以上对本申请所提供的一种实体输入方法和装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (17)

1.一种实体输入方法,其特征在于,包括:
接收输入的输入序列;
获取对应输入序列的初始候选项;其中,所述初始候选项为排在各候选项首位的文字候选;
基于知识库对所述初始候选项进行语义分析,并根据语义分析结果从知识库查询目标对象;包括:基于知识库识别并标记所述初始候选项的各词的标签,得到标记序列;所述标签包括:实体对象、和/或属性词、和/或对应属性词的属性值;利用上下文无关文法获得的文法集,对所述标记序列进行文法分析,并根据文法分析的结果在知识库中进行匹配查询,以获得知识库中的知识内容作为目标对象;
将所述目标对象对应的知识内容封装为实体候选项,加载至所述输入序列对应的各候选项中;
根据所述初始候选项的位置,在候选框中展示所述实体候选项。
2.如权利要求1所述的方法,其特征在于,还包括:针对同一实体对象,根据既定的行业类别构建各行业类别对应的实体对象标签。
3.如权利要求2所述的方法,其特征在于,所述基于知识库识别并标记所述初始候选项的各词的标签时,
遍历实体对象表,对所述初始候选项中的实体对象进行标记;
根据每个实体对象的标签对应的所属行业类别,遍历相应行业类别中的属性词表,对所述初始候选项中的各属性词进行属性词标记。
4.如权利要求2所述的方法,其特征在于,所述基于知识库识别并标记所述初始候选项的各词的标签,得到标记序列,包括:
当对一实体对象对应不同行业类别的实体对象进行标记时,分别将所述实体对象的标签与所述实体对象上下文的其他分词对应的词性标签进行组合,获得标记序列;
将所述各标记序列分别与既定的匹配模板进行匹配,确定最终的标记序列。
5.如权利要求4所述的方法,其特征在于,所述将所述各标记序列分别与既定的匹配模板进行匹配,确定最终的标记序列包括:
将所述各标记序列分别与既定的匹配模板进行匹配,选择出现概率最大的标记序列作为最终的标记序列。
6.如权利要求1所述的方法,其特征在于,所述利用上下文无关文法获得的文法集,对所述标记序列进行文法分析,并根据文法分析的结果在知识库中进行匹配查询,以获得知识库中的知识内容作为目标对象包括:
利用上下文无关文法获得的文法集,对所述标记序列进行文法分析,将文法分析结果进行转换以得到机器查询语言;
根据所述机器查询语言在知识库中进行查询,将得到的知识内容作为目标对象。
7.如权利要求6所述的方法,其特征在于,所述利用上下文无关文法获得的文法集,对所述标记序列进行文法分析时,包括:
利用以上下文无关文法确定的文法集,对所述标记序列进行递归规约,并根据规约子句与初始SQL子句的对应关系,将递归规约过程中出现的子语句进行记录;
当规约结束时,根据各初始SQL子句的归属关系、以及各初始SQL语句使用的标签中对应的词,组装为完整SQL语句。
8.如权利要求7所述的方法,其特征在于,所述识别并标记所述初始候选项的各词的标签时,还包括:
识别所述属性词所属的编号,在所述属性词的标签中添加词性对应的编号;
进一步的,所述将递归规约过程中出现的子语句进行记录包括:
以所述标记序列的首个标签开始,在基于文法集进行递归规约过程中,根据属性词标签的编号确认下一轮的规约子语句,直至子语句规约完毕。
9.根据权利要求1所述的方法,其特征在于,所述将所述目标对象对应的知识内容封装为实体候选项包括:
以图片为载体,将所述目标对象的知识内容加入所述图片中,封装为所述实体候选项。
10.根据权利要求1所述的方法,其特征在于,还包括:所述实体候选项在各候选项中的数量大于一个时,根据输入的匹配符进行匹配;所述匹配符与各实体候选项对应的知识内容所属的行业类别和/或标识相对应。
11.根据权利要求1所述的方法,其特征在于,还包括:所述实体候选项在各候选项中的数量大于一个时,将各实体候选项分别加载至候选区域的二级菜单。
12.根据权利要求1、6、9、10或11中任一所述的方法,其特征在于,还包括:
当所述初始候选项被触发时,将所述实体候选项附着所述初始候选项上屏,供用户进行触发;
或者,
所述实体候选项被点击后,调用对应封装的知识内容在本地进行加载,分析展现对应的知识内容,供当前用户进行查看。
13.根据权利要求12所述的方法,其特征在于,所述知识内容包括媒体对象,
所述媒体对象包括图片、音乐、flash、视频,将所述媒体对象被封装为实体候选项后,附着于所述初始候选项供用户进行上屏或查看。
14.一种实体输入装置,其特征在于,包括:
序列接收模块,用于接收输入的输入序列;
初始候选项获取模块,用于获取对应输入序列的初始候选项;其中,所述初始候选项为排在各候选项首位的文字候选;
目标对象获取模块,用于基于知识库对所述初始候选项进行语义分析,并根据语义分析结果从知识库查询目标对象;
封装模块,用于将所述目标对象对应的知识内容封装为实体候选项,加载至所述输入序列对应的各候选项中;
展现模块,用于根据所述初始候选项的位置,在候选框中展示所述实体候选项;
所述目标对象获取模块包括:词性标记模块,用于基于知识库识别并标记所述初始候选项的各词的标签,得到标记序列;所述标签包括:实体对象、和/或属性词、和/或对应属性词的属性值;查询分析模块,用于利用上下文无关文法获得的文法集,对所述标记序列进行文法分析,并根据文法分析的结果在知识库中进行匹配查询,以获得知识库中的知识内容作为目标对象。
15.根据权利要求14所述的装置,其特征在于,所述封装模块包括:
第一封装模块,用于以图片为载体,将所述目标对象的知识内容加入所述图片中,封装为所述实体候选项。
16.根据权利要求14或15所述的装置,其特征在于,还包括:
上屏模块,用于当所述初始候选项被触发时,将所述实体候选项附着所述初始候选项上屏,供用户进行触发;
或者,
分析展示模块,用于所述实体候选项被点击后,调用对应封装的知识内容在本地进行加载,分析展现对应的知识内容,供当前用户进行查看。
17.根据权利要求16所述的装置,其特征在于,所述知识内容包括媒体对象,
所述媒体对象包括图片、音乐、flash、视频,将所述媒体对象被封装为实体候选项后,附着于所述初始候选项供用户进行上屏或查看。
CN201410015318.7A 2014-01-13 2014-01-13 一种实体输入方法和装置 Active CN103914513B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410015318.7A CN103914513B (zh) 2014-01-13 2014-01-13 一种实体输入方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410015318.7A CN103914513B (zh) 2014-01-13 2014-01-13 一种实体输入方法和装置

Publications (2)

Publication Number Publication Date
CN103914513A CN103914513A (zh) 2014-07-09
CN103914513B true CN103914513B (zh) 2018-02-06

Family

ID=51040193

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410015318.7A Active CN103914513B (zh) 2014-01-13 2014-01-13 一种实体输入方法和装置

Country Status (1)

Country Link
CN (1) CN103914513B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11809417B2 (en) 2021-06-29 2023-11-07 Graft, Inc. Apparatus and method for transforming unstructured data sources into both relational entities and machine learning models that support structured query language queries
US11886470B2 (en) 2021-06-29 2024-01-30 Graft, Inc. Apparatus and method for aggregating and evaluating multimodal, time-varying entities

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104102712A (zh) * 2014-07-15 2014-10-15 百度在线网络技术(北京)有限公司 识别实体的方法和装置
CN110968998B (zh) * 2014-09-30 2024-04-19 上海触乐信息科技有限公司 智能预测的输入方法和系统
CN107070779B (zh) * 2015-05-29 2021-09-03 北京搜狗科技发展有限公司 一种信息处理方法和装置
CN106257378A (zh) * 2016-07-19 2016-12-28 北京新美互通科技有限公司 一种表情符号输入方法及装置
CN105786207B (zh) * 2016-02-25 2018-09-11 百度在线网络技术(北京)有限公司 信息输入方法和装置
CN105701254B (zh) * 2016-03-09 2020-11-13 北京搜狗科技发展有限公司 一种信息处理方法和装置、一种用于信息处理的装置
CN107247731A (zh) * 2017-05-04 2017-10-13 深圳哇哇鱼网络科技有限公司 一种语义识别推荐图形方法
CN108874170B (zh) * 2017-05-08 2023-05-23 北京搜狗科技发展有限公司 一种输入方法及装置
CN109002184B (zh) * 2017-06-07 2022-09-23 北京搜狗科技发展有限公司 一种输入法候选词的联想方法和装置
CN107844476A (zh) * 2017-10-19 2018-03-27 广州索答信息科技有限公司 一种增强的词性标注方法
CN108763221B (zh) * 2018-06-20 2022-05-17 科大讯飞股份有限公司 一种属性名表征方法及装置
CN110858100B (zh) * 2018-08-22 2023-10-20 北京搜狗科技发展有限公司 联想候选词生成方法及装置
CN113010768B (zh) * 2019-12-19 2024-03-19 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510221B (zh) * 2009-02-17 2012-05-30 北京大学 一种用于信息检索的查询语句分析方法与系统
CN102314441A (zh) * 2010-06-30 2012-01-11 百度在线网络技术(北京)有限公司 用于供用户进行个性化素材输入的方法、设备和系统
US9378290B2 (en) * 2011-12-20 2016-06-28 Microsoft Technology Licensing, Llc Scenario-adaptive input method editor

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11809417B2 (en) 2021-06-29 2023-11-07 Graft, Inc. Apparatus and method for transforming unstructured data sources into both relational entities and machine learning models that support structured query language queries
US11886470B2 (en) 2021-06-29 2024-01-30 Graft, Inc. Apparatus and method for aggregating and evaluating multimodal, time-varying entities

Also Published As

Publication number Publication date
CN103914513A (zh) 2014-07-09

Similar Documents

Publication Publication Date Title
CN103914513B (zh) 一种实体输入方法和装置
Rebele et al. YAGO: A multilingual knowledge base from wikipedia, wordnet, and geonames
Schreiber et al. Semantic annotation and search of cultural-heritage collections: The MultimediaN E-Culture demonstrator
CN104252533B (zh) 搜索方法和搜索装置
CN104025077B (zh) 数据流的实时自然语言处理
CN102968495B (zh) 搜索对比关联购物信息的垂直搜索引擎及方法
TWI695277B (zh) 自動化網站資料蒐集方法
CN104679783B (zh) 一种网络搜索方法和装置
CN101697109A (zh) 一种获取输入法候选项的方法及系统
WO2007107993A2 (en) Method and apparatus for extracting terms based on a displayed text
EP2300938A1 (en) Method for representation of objects and relationships in databases, directories, and applications as sentences
CN102207948A (zh) 一种事件陈述句素材库的生成方法
CN106126619A (zh) 一种基于视频内容的视频检索方法及系统
US20110119261A1 (en) Searching using semantic keys
Moncla et al. Automated geoparsing of paris street names in 19th century novels
RU2698405C2 (ru) Способ поиска в базе данных
Kisilevich et al. “Beautiful picture of an ugly place”. Exploring photo collections using opinion and sentiment analysis of user comments
Kambau et al. Concept-based multimedia information retrieval system using ontology search in cultural heritage
Truong et al. Video search based on semantic extraction and locally regional object proposal
CN102214186A (zh) 展示对象关系的方法和系统
CN106021532A (zh) 关键词的显示方法和装置
CN106933380A (zh) 一种词库的更新方法和装置
Hollink Semantic annotation for retrieval of visual resources
Waitelonis et al. Use what you have: Yovisto video search engine takes a semantic turn
CN115617965A (zh) 一种语言结构大数据的快速检索方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant