CN105335490A - 一种排序方法及其装置 - Google Patents

一种排序方法及其装置 Download PDF

Info

Publication number
CN105335490A
CN105335490A CN201510680599.2A CN201510680599A CN105335490A CN 105335490 A CN105335490 A CN 105335490A CN 201510680599 A CN201510680599 A CN 201510680599A CN 105335490 A CN105335490 A CN 105335490A
Authority
CN
China
Prior art keywords
vocabulary
document
category feature
candidate frame
input candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510680599.2A
Other languages
English (en)
Inventor
杨贝斯
李建功
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN201510680599.2A priority Critical patent/CN105335490A/zh
Publication of CN105335490A publication Critical patent/CN105335490A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种排序方法及其装置,所述排序方法对文档进行语义分析以获取文档的类别特征,根据所述类别特征对输入候选框的词汇进行排序,从而能够进行更精准的目标文字匹配,使得目标文字在出现多个重字时显示在输入候选框的靠前位置,以减少用户寻找目标文字的时间,最终提高了文字输入的速度。

Description

一种排序方法及其装置
技术领域
本发明涉及文字输入技术领域,尤其涉及一种排序方法及其装置。
背景技术
随着办公自动化的发展,电子文档的输入已经取代了传统的手写文字输入。如果能有效地提高文字的输入速度,那么就能在一定程度上提高办公效率。目前广泛使用的文字输入法的重字率都较高,出现重字时需要在输入候选框中花费一定的时间来寻找目标文字。
为解决上述问题,现有技术采用的方法是,当出现重字时,使用频率越高的文字,出现在输入候选框中的位置越靠前,从而在一定程度上提高了文字输入的速度。然而,上述方法不具有针对性,不能针对特定文档提高文字输入速度。
发明内容
为解决上述问题,本发明提供一种排序方法及其装置,用于解决现有技术不具有针对性,不能针对特定文档提高文字输入速度的问题。
为此,本发明提供一种排序方法,包括:
对文档进行语义分析以获取文档的类别特征;
根据所述类别特征对输入候选框的词汇进行排序。
可选的,所述类别特征包括题材特征、思想特征和感情特征中的一个或多个。
可选的,所述根据所述类别特征对输入候选框的词汇进行排序的步骤包括:
将所述类别特征与词库中词汇的类别特征进行匹配;
根据匹配结果对输入候选框的词汇进行排序。
可选的,所述对文档进行语义分析以获取文档的类别特征的步骤之前包括:
形成词库,所述词库包括多个词汇和与每个词汇对应的类别特征。
可选的,所述根据匹配结果对输入候选框的词汇进行排序的步骤包括:
若匹配结果为匹配度高,将所述词汇设置在所述输入候选框的靠前位置;
若匹配结果为匹配度低,将所述词汇设置在所述输入候选框的靠后位置。
本发明还提供一种排序装置,包括第一获取单元和第一排序单元;
所述第一获取单元用于对文档进行语义分析以获取文档的类别特征;
所述第一排序单元用于根据所述类别特征对输入候选框的词汇进行排序。
可选的,所述类别特征包括题材特征、思想特征和感情特征中的一个或多个。
可选的,所述第一排序单元包括第一匹配模块和第一排序模块;
所述第一匹配模块用于将所述类别特征与词库中词汇的类别特征进行匹配;
所述第一排序模块用于根据匹配结果对输入候选框的词汇进行排序。
可选的,还包括第一形成单元;
所述第一形成单元用于形成词库,所述词库包括多个词汇和与每个词汇对应的类别特征。
可选的,所述第一排序模块包括第一设置子模块和第二设置子模块;
所述第一设置子模块用于若匹配结果为匹配度高,将所述词汇设置在所述输入候选框的靠前位置;
所述第二设置子模块用于若匹配结果为匹配度低,将所述词汇设置在所述输入候选框的靠后位置。
本发明具有下述有益效果:
本发明提供的排序方法及其装置中,所述排序方法对文档进行语义分析以获取文档的类别特征,根据所述类别特征对输入候选框的词汇进行排序,从而能够进行更精准的目标文字匹配,使得目标文字在出现多个重字时显示在输入候选框的靠前位置,以减少用户寻找目标文字的时间,最终提高了文字输入的速度。
附图说明
图1为本发明实施例一提供的一种排序方法的流程图;
图2为本发明实施例二提供的一种排序装置的结构示意图;
图3为图2所示排序装置的具体结构示意图。
具体实施方式
为使本领域的技术人员更好地理解本发明的技术方案,下面结合附图对本发明提供的排序方法及其装置进行详细描述。
实施例一
图1为本发明实施例一提供的一种排序方法的流程图。如图1所示,所述排序方法包括:
步骤1001、对文档进行语义分析以获取文档的类别特征。
可选的,所述类别特征包括题材特征、思想特征和感情特征中的一个或多个。优选的,所述类别特征包括题材类型、主题思想和感情色彩。需要说明的是,本实施例只针对题材类型、主题思想和感情色彩三种类别特征进行描述,但是本发明要求保护的类别特征并不限于上述三种情况,其它类别特征只要能够作为对输入候选框的词汇进行排序的依据都属于本发明的保护范围。
本实施例中,所述文档为已输入文档,通过对已输入文档的语义分析和推理,判断出文档的题材类型、主题思想和感情色彩。由于文字输入是通过一个字或者一个词进行输入的,因此整个文档输入是一个连续的过程。本实施例可以间隔预定的时间获取已输入的文字,对已输入文档进行语义分析,从而获取当前时间的输入文档的题材类型、主题思想和感情色彩。通过上述方式,可以不断更新文档的题材类型,主题思想以及感情色彩。
本实施例所述语义分析是基于本体的语义推理。具体来说,在相关领域专家的帮助下,构建相关领域的领域本体。本体是一种复杂的知识网络,领域本体实际上就是对特定领域之中特定概念以及概念之间关系的形式化表达。具体来说,获取输入文档后,从领域本体中读取与所述输入文档相关的概念、关系、规则和定理,借助语义解析和推理工具,在语义层面对输入文档进行概念分析、关系校验和关系推理,从而实现对输入文档的语义分析,最终判断出文档的题材类型、主题思想和感情色彩。本实施例将输入文档的题材类型、主题思想和感情色彩作为整篇文档的题材类型、主题思想和感情色彩。也就是说,本实施例将输入文档的类别特征作为整篇文档的类别特征。
步骤1002、根据所述类别特征对输入候选框的词汇进行排序。
本实施例中,所述对文档进行语义分析以获取文档的类别特征的步骤之前包括:形成词库,所述词库包括多个词汇和与每个词汇对应的类别特征。需要说明的是,本发明所述的“词汇”是一种广义词汇,包括单个的字和由多个字组成的词。
本实施例中,词库中每个词汇具有至少一个类别特征。优选的,所述词汇具有三个类别特征:题材类型、主题思想和感情色彩,也就是标明本词汇通常用于哪些题材类型的文档中,通常用于什么主题思想的文档中,通过用于表达什么感情色彩。因此,词库中存储有所有常用词汇以及每个词汇对应的上述三个类别特征。当然,词库也是在动态调整的,需要时也可以形成新的词汇和与所述新的词汇对应的类别特征。另外,用户在输入文档时发现词库中没有需要的词汇,则可以根据需要自己形成词汇,再将上述新形成词汇存储在词库中,而且将文档的三个类别特征(文档输入完成后最终确定的三个类别特征)作为新形成词汇的类别特征也存储在词库中,从而完成对词库的更新。
可选的,所述根据所述类别特征对输入候选框的词汇进行排序的步骤包括:将所述类别特征与词库中词汇的类别特征进行匹配;根据匹配结果对输入候选框的词汇进行排序。优选的,所述根据匹配结果对输入候选框的词汇进行排序的步骤包括:若匹配结果为匹配度高,将所述词汇设置在所述输入候选框的靠前位置;若匹配结果为匹配度低,将所述词汇设置在所述输入候选框的靠后位置,从而能够进行更精准的目标文字匹配,使得目标文字在出现多个重字时显示在输入候选框的靠前位置,以减少用户寻找目标文字的时间,最终提高了文字输入的速度。
本实施例中,将输入文档的三个类别特征与词库中词汇的三个类别特征进行匹配,从而使得在出现重字时,匹配率高的词汇优先出现在输入候选框中靠前的位置。也就是说,根据文档的题材类型、主题思想和感情色彩对用户词库进行动态调整,对用户输入候选框中的文字进行优先性排序,使得目标文字排序靠前。
本实施例提供的排序方法对文档进行语义分析以获取文档的类别特征,根据所述类别特征对输入候选框的词汇进行排序,从而能够进行更精准的目标文字匹配,使得目标文字在出现多个重字时显示在输入候选框的靠前位置,以减少用户寻找目标文字的时间,最终提高了文字输入的速度。
实施例二
图2为本发明实施例二提供的一种排序装置的结构示意图。如图2所示,所述排序装置包括第一获取单元101和第一排序单元102。所述第一获取单元101对文档进行语义分析以获取文档的类别特征,所述第一排序单元102根据所述类别特征对输入候选框的词汇进行排序。
可选的,所述类别特征包括题材特征、思想特征和感情特征中的一个或多个。优选的,所述类别特征包括题材类型、主题思想和感情色彩。本实施例中,所述文档为已输入文档,第一获取单元101通过对已输入文档的语义分析和推理,判断出文档的题材类型、主题思想和感情色彩。由于文字输入是通过一个字或者一个词进行输入的,因此整个文档输入是一个连续的过程。第一获取单元101可以间隔预定的时间获取已输入的文字,对已输入文档进行语义分析,从而获取当前时间的输入文档的题材类型、主题思想和感情色彩。通过上述方式,可以不断更新文档的题材类型,主题思想以及感情色彩。
本实施例中,第一获取单元101获取输入文档后,根据与所述输入文档相关的概念、关系、规则和定理,借助语义解析和推理工具,在语义层面对输入文档进行概念分析、关系校验和关系推理,从而实现对输入文档的语义分析,最终判断出文档的题材类型、主题思想和感情色彩。本实施例将输入文档的题材类型、主题思想和感情色彩作为整篇文档的题材类型、主题思想和感情色彩。也就是说,本实施例将输入文档的类别特征作为整篇文档的类别特征。
本实施例中,所述排序装置还包括第一形成单元103,所述第一形成单元103形成词库,所述词库包括多个词汇和与每个词汇对应的类别特征。需要说明的是,本发明所述的“词汇”是一种广义词汇,包括单个的字和由多个字组成的词。
第一形成单元103形成的词库中每个词汇具有至少一个类别特征。优选的,所述词汇具有三个类别特征:题材类型、主题思想和感情色彩。因此,词库中存储有所有常用词汇以及每个词汇对应的上述三个类别特征。当然,词库也是在动态调整的,需要时第一形成单元103也可以形成新的词汇和与所述新的词汇对应的类别特征。另外,在输入文档时发现词库中没有需要的词汇时,第一形成单元103形成需要的词汇,再将上述新形成词汇存储在词库中,而且将文档的三个类别特征(文档输入完成后最终确定的三个类别特征)作为新形成词汇的类别特征也存储在词库中,从而完成对词库的更新。
图3为图2所示排序装置的具体结构示意图。如图3所示,所述第一排序单元103包括第一匹配模块104和第一排序模块105。所述第一匹配模块104将所述类别特征与词库中词汇的类别特征进行匹配,所述第一排序模块105根据匹配结果对输入候选框的词汇进行排序。优选的,所述第一排序模块105包括第一设置子模块和第二设置子模块。若匹配结果为匹配度高,所述第一设置子模块将所述词汇设置在所述输入候选框的靠前位置,若匹配结果为匹配度低,所述第二设置子模块将所述词汇设置在所述输入候选框的靠后位置,从而能够进行更精准的目标文字匹配,使得目标文字在出现多个重字时显示在输入候选框的靠前位置,以减少用户寻找目标文字的时间,最终提高了文字输入的速度。
本实施例中,第一匹配模块104将输入文档的三个类别特征与词库中词汇的三个类别特征进行匹配,所述第一设置子模块将匹配率高的词汇设置在输入候选框中靠前的位置。也就是说,第一排序单元103根据文档的题材类型、主题思想和感情色彩对用户词库进行动态调整,对用户输入候选框中的文字进行优先性排序,使得目标文字排序靠前。
下面通过举例说明排序装置的工作过程:输入文档时,第一获取单元102对文档进行语义分析以获取文档的题材类型、主题思想和感情色彩。当输入候选框中出现重词时,第一匹配模块104将文档的三个类别特征与词库中这些重词的三个类别特征进行匹配,匹配度最高的词汇拥有最大的优先性。第一排序模块105将匹配度高的词汇设置在输入候选框中靠前的位置。例如,当输入“hkdl”时,输入候选框中会出现“花开蒂落”、“好看多了”以及“胡克定律”三个重词,第一匹配模块104将文档的三个类别特征与上述三个重词的三个类别特征分别进行匹配。如果正在输入的文档的题材类型是说明文,主题思想是关于物理的知识,第一排序模块105将认定“胡克定律”这个词汇的匹配度最高,具有最高优先性,将“胡克定律”排在输入候选框中的第一个。如果正在输入的文档的题材类型是散文,主题思想是关于风景描写,第一排序模块105将认定“花开蒂落”这个词汇的匹配度最高,具有最高优先性,将“花开蒂落”排在输入候选框中的第一个。如果主题思想是关于生活的,第一排序模块105将认定“好看多了”这个词汇的匹配度最高,具有最高优先性,将“好看多了”排在输入候选框中的第一个。
本实施例提供的排序装置对文档进行语义分析以获取文档的类别特征,根据所述类别特征对输入候选框的词汇进行排序,从而能够进行更精准的目标文字匹配,使得目标文字在出现多个重字时显示在输入候选框的靠前位置,以减少用户寻找目标文字的时间,最终提高了文字输入的速度。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

Claims (10)

1.一种排序方法,其特征在于,包括:
对文档进行语义分析以获取文档的类别特征;
根据所述类别特征对输入候选框的词汇进行排序。
2.根据权利要求1所述的排序方法,其特征在于,所述类别特征包括题材特征、思想特征和感情特征中的一个或多个。
3.根据权利要求1所述的排序方法,其特征在于,所述根据所述类别特征对输入候选框的词汇进行排序的步骤包括:
将所述类别特征与词库中词汇的类别特征进行匹配;
根据匹配结果对输入候选框的词汇进行排序。
4.根据权利要求3所述的排序方法,其特征在于,所述对文档进行语义分析以获取文档的类别特征的步骤之前包括:
形成词库,所述词库包括多个词汇和与每个词汇对应的类别特征。
5.根据权利要求3所述的排序方法,其特征在于,所述根据匹配结果对输入候选框的词汇进行排序的步骤包括:
若匹配结果为匹配度高,将所述词汇设置在所述输入候选框的靠前位置;
若匹配结果为匹配度低,将所述词汇设置在所述输入候选框的靠后位置。
6.一种排序装置,其特征在于,包括第一获取单元和第一排序单元;
所述第一获取单元用于对文档进行语义分析以获取文档的类别特征;
所述第一排序单元用于根据所述类别特征对输入候选框的词汇进行排序。
7.根据权利要求6所述的排序装置,其特征在于,所述类别特征包括题材特征、思想特征和感情特征中的一个或多个。
8.根据权利要求6所述的排序装置,其特征在于,所述第一排序单元包括第一匹配模块和第一排序模块;
所述第一匹配模块用于将所述类别特征与词库中词汇的类别特征进行匹配;
所述第一排序模块用于根据匹配结果对输入候选框的词汇进行排序。
9.根据权利要求8所述的排序装置,其特征在于,还包括第一形成单元;
所述第一形成单元用于形成词库,所述词库包括多个词汇和与每个词汇对应的类别特征。
10.根据权利要求8所述的排序装置,其特征在于,所述第一排序模块包括第一设置子模块和第二设置子模块;
所述第一设置子模块用于若匹配结果为匹配度高,将所述词汇设置在所述输入候选框的靠前位置;
所述第二设置子模块用于若匹配结果为匹配度低,将所述词汇设置在所述输入候选框的靠后位置。
CN201510680599.2A 2015-10-19 2015-10-19 一种排序方法及其装置 Pending CN105335490A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510680599.2A CN105335490A (zh) 2015-10-19 2015-10-19 一种排序方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510680599.2A CN105335490A (zh) 2015-10-19 2015-10-19 一种排序方法及其装置

Publications (1)

Publication Number Publication Date
CN105335490A true CN105335490A (zh) 2016-02-17

Family

ID=55286017

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510680599.2A Pending CN105335490A (zh) 2015-10-19 2015-10-19 一种排序方法及其装置

Country Status (1)

Country Link
CN (1) CN105335490A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101388011A (zh) * 2007-09-13 2009-03-18 北京搜狗科技发展有限公司 一种向用户词库中记录信息的方法和装置
US20090193334A1 (en) * 2005-05-18 2009-07-30 Exb Asset Management Gmbh Predictive text input system and method involving two concurrent ranking means
CN101706690A (zh) * 2009-12-07 2010-05-12 北京搜狗科技发展有限公司 一种自适应输入方法及系统
CN102722483A (zh) * 2011-03-29 2012-10-10 百度在线网络技术(北京)有限公司 用于确定输入法的候选项排序的方法、装置和设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090193334A1 (en) * 2005-05-18 2009-07-30 Exb Asset Management Gmbh Predictive text input system and method involving two concurrent ranking means
CN101388011A (zh) * 2007-09-13 2009-03-18 北京搜狗科技发展有限公司 一种向用户词库中记录信息的方法和装置
CN101706690A (zh) * 2009-12-07 2010-05-12 北京搜狗科技发展有限公司 一种自适应输入方法及系统
CN102722483A (zh) * 2011-03-29 2012-10-10 百度在线网络技术(北京)有限公司 用于确定输入法的候选项排序的方法、装置和设备

Similar Documents

Publication Publication Date Title
CN102663139B (zh) 一种情感词典构建方法及系统
CN104281653B (zh) 一种针对千万级规模微博文本的观点挖掘方法
CN106776574B (zh) 用户评论文本挖掘方法及装置
CN107506389B (zh) 一种提取职位技能需求的方法和装置
CN109710947B (zh) 电力专业词库生成方法及装置
CN109902302B (zh) 一种适用于文本分析或数据挖掘的主题图谱生成方法、装置、设备以及计算机存储介质
CN112667794A (zh) 一种基于孪生网络bert模型的智能问答匹配方法及系统
CN103389988A (zh) 一种引导用户进行信息搜索的方法及装置
CN104778209A (zh) 一种针对千万级规模新闻评论的观点挖掘方法
CN104298665A (zh) 一种中文文本中评价对象的识别方法及装置
CN102033880A (zh) 基于结构化数据集合的标注方法和装置
CN104199965A (zh) 一种语义信息检索方法
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
CN106033462A (zh) 一种新词发现方法及系统
CN109885688A (zh) 文本分类方法、装置、计算机可读存储介质和电子设备
CN107169043A (zh) 一种基于标准答案的知识点自动提取方法及系统
CN103559193A (zh) 一种基于选择单元的主题建模方法
CN103942274B (zh) 一种基于lda的生物医疗图像的标注系统及方法
CN104216979A (zh) 中文工艺专利自动分类系统及利用该系统进行专利分类的方法
CN106897290A (zh) 一种建立关键词模型的方法及装置
CN105159917A (zh) 一种电子病历的非结构化信息转化为结构化的泛化方法
CN103116573A (zh) 一种基于词汇注释的领域词典自动扩充方法
CN105224955A (zh) 基于微博大数据获取网络服务状态的方法
US11030533B2 (en) Method and system for generating a transitory sentiment community
CN110889412A (zh) 体检报告中的医学长文定位与分类方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160217