CN107704102A - 一种文本输入方法及装置 - Google Patents

一种文本输入方法及装置 Download PDF

Info

Publication number
CN107704102A
CN107704102A CN201710931060.9A CN201710931060A CN107704102A CN 107704102 A CN107704102 A CN 107704102A CN 201710931060 A CN201710931060 A CN 201710931060A CN 107704102 A CN107704102 A CN 107704102A
Authority
CN
China
Prior art keywords
word
character
fraction
candidate
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710931060.9A
Other languages
English (en)
Other versions
CN107704102B (zh
Inventor
马士杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xinmeihutong Technology Co
Original Assignee
Beijing Xinmeihutong Technology Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xinmeihutong Technology Co filed Critical Beijing Xinmeihutong Technology Co
Priority to CN201710931060.9A priority Critical patent/CN107704102B/zh
Publication of CN107704102A publication Critical patent/CN107704102A/zh
Application granted granted Critical
Publication of CN107704102B publication Critical patent/CN107704102B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0237Character input methods using prediction or retrieval techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开一种文本输入方法及装置。该方法中,通过已输入的单词和RNN语言模型,确定第一候选词语,综合第一候选词的第一字符串相似度和第一词频分数,得到第一候选词语的词语分数。接收正在输入的初始键码串后,确定初始键码串中包含的目标字符的周围字符,根据目标字符及周围字符,获取初始键码串与词典中各个单词之间的第二字符串相似度,根据第二字符串相似度确定第二候选词,综合第二候选词的第二字符串相似度和第二词频分数,得到第二候选词语的词语分数。该方法解决了现有技术中N元语言模型数据稀疏,导致的推荐精度低的问题,并且,该方法在获取第二候选词时,考虑了目标字符的周围字符,能够起到纠错作用,进一步提高推荐精度。

Description

一种文本输入方法及装置
技术领域
本申请涉及输入法技术领域,尤其涉及一种文本输入方法及装置。
背景技术
随着科技的发展,多种终端设备应运而生,例如手机、iPad和电脑等,满足了用户在工作和生活方面的多种需求。另外,用户使用各种终端设备的过程中,经常需要向终端设备输入文本,例如,在使用终端设备中安装的通讯软件,以及利用终端设备记录信息时,都需要向终端设备输入文本。
在向终端设备输入文本时,通常会根据用户输入的内容,向用户推荐相应的信息,以简化用户的输入步骤。例如,当用户输入“happy”时,终端设备可能会向用户推荐“newyear”和“birthday”等多个候选词语,用户点击其中一个候选词语,即可输入该候选词语。在现有技术中,为了实现该功能,需要预先根据大规模语料,统计多个长度为N的词组的出现频率,据此创建N元语言模型。在用户输入N-1个词语后,终端设备通过查询该N元语言模型,确定能够与用户输入的N-1个词语组成词组的各个候选词语,并通过N元语言模型,确定用户输入的N-1个词语与各个候选词组组成的词组的词频,根据词频向用户推荐各个候选词语。
但是,发明人在本申请的研究过程中发现,N元语言模型的参数会随着n的增长而急剧增多,需要的终端设备的存储空间也相应的急剧增长。例如,假如词典中有100000个单词,二元语言模型中最多有1000002个参数,三元语言模型中最多有1000003个参数,相对于二元语言模型来说,参数数量急剧增多,需要更大的存储空间。因此,目前终端设备采用的输入法通常最多应用三元语言模型,且在三元语言模型中只保留高频词组,因此存在数据稀疏问题,有时向用户推荐的候选词语并非用户所需要的词语,导致推荐精度低。另外,用户在向终端设备进行文本输入的过程中,有时会发生输入错误,例如误触到目标字符的周围字符,导致输入错误字符,从而进一步降低推荐的精度。
发明内容
为了解决现有技术中的输入方法,由于使用的N元语言模型存在数据稀疏,以及由于用户输入错误,导致推荐精度低的问题,本发明通过以下各个实施例公开一种文本输入方法及装置。
在本发明的第一方面,公开一种文本输入方法,包括:
接收用户已输入单词和正在输入的初始键码串;
通过RNN语言模型,确定已输入单词的各个第一候选词语,获取所述初始键码串包含的各个目标字符与所述第一候选词语之间的第一字符串相似度,并获取所述第一候选词语的第一词频分数,根据所述第一字符串相似度和所述第一词频分数获取所述第一候选词语的词语分数;
根据所述目标字符和所述目标字符的周围字符,遍历词典,获取所述初始键码串与所述词典中各个单词的第二字符串相似度,其中,第二字符串相似度大于预设值的单词为第二候选词,查询第二候选词在所述词典中的第二词频分数,根据所述第二字符串相似度和第二词频分数获取所述第二候选词的词语分数;
根据所述第一候选词语的词语分数和所述第二候选词语的词语分数,确定本次向用户推荐的候选词。
可选的,所述获取所述第一候选词语的第一词频分数,包括:
通过所述RNN语言模型,获取所述第一候选词语在所述RNN语言模型中的RNN词频分数;
查询词典,获取所述第一候选词语在所述词典中的词典词频分数;
通过所述第一候选词语的RNN词频分数和词典词频分数,获取所述第一候选词语的第一词频分数。
可选的,所述通过所述第一候选词语的RNN词频分数和词典词频分数,获取所述第一候选词语的第一词频分数,包括:
通过预先设定的线性插值法,确定所述第一候选词语的RNN词频分数和词典词频分数的线性关系;
根据所述线性关系,计算所述第一候选词语的第一词频分数。
可选的,若已输入单词和正在输入的初始键码串为英文,所述词典为树形层级结构,并且所述词典中的每一个节点包括至少一个英文字符;
所述词典的第一层包括26个英文大写字符和/或26个英文小写字符;
从所述词典的首节点到每个根节点的路径所经过的节点中包含的字符构成一个单词;
所述词典中存储有各个单词的词频。
可选的,所述获取所述初始键码串与所述词典中各个单词的第二字符串相似度,包括:
根据所述周围字符与所述目标字符的距离,确定所述目标字符与周围字符的权重;
根据字符输入顺序,以及所述目标字符与周围字符的权重,构建相应的键码串权重列表;
通过所述键码串权重列表遍历所述词典,获取将所述初始键码串转换为所述词典中的各个单词所需操作的最少操作次数,其中,所述所需操作包括:字符插入操作、字符删除操作和周围字符替换操作;
根据所述最少操作次数,以及进行周围字符替换操作时,所述目标字符与周围字符在所述键码串权重列表中的权重,确定所述初始键码串与所述词典中各个单词的第二字符串相似度。
可选的,所述根据所述第一候选词语的词语分数和所述第二候选词语的词语分数,确定本次向用户推荐的候选词,包括:
根据所述第一候选词语的词语分数,从所述第一候选词语中选择词语分数最高的r个第一目标候选词语;
根据所述第二候选词语的词语分数,从所述二候选词语中选择词语分数最高的r个第二目标候选词语;
删除所述r个第一目标候选词语和所述r个第二目标候选词语中的重复词语,并综合对比剩余词语的词语分数,根据词语分数对所述剩余词语进行排序并推荐;
其中,r为预设的正整数。
在本发明的第二方面,公开一种文本输入装置,包括:
接收模块,用于接收用户已输入单词和正在输入的初始键码串;
第一分数获取模块,用于通过RNN语言模型,确定已输入单词的各个第一候选词语,获取所述初始键码串包含的各个目标字符与所述第一候选词语之间的第一字符串相似度,并获取所述第一候选词语的第一词频分数,根据所述第一字符串相似度和所述第一词频分数获取所述第一候选词语的词语分数;
第二分数获取模块,用于根据所述目标字符和所述目标字符的周围字符,遍历词典,获取所述初始键码串与所述词典中各个单词的第二字符串相似度,其中,第二字符串相似度大于预设值的单词为第二候选词,查询第二候选词在所述词典中的第二词频分数,根据所述第二字符串相似度和第二词频分数获取所述第二候选词的词语分数;
候选词推荐模块,用于根据所述第一候选词语的词语分数和所述第二候选词语的词语分数,确定本次向用户推荐的候选词。
可选的,所述第一分数获取模块包括:
RNN词频分数获取单元,用于通过所述RNN语言模型,获取所述第一候选词语在所述RNN语言模型中的RNN词频分数;
词典词频分数获取单元,用于查询词典,获取所述第一候选词语在所述词典中的词典词频分数;
第一词频分数获取单元,用于通过所述第一候选词语的RNN词频分数和词典词频分数,获取所述第一候选词语的第一词频分数。
可选的,所述第一词频分数获取单元包括:
线性关系确定单元,用于通过预先设定的线性插值法,确定所述第一候选词语的RNN词频分数和词典词频分数的线性关系;
第一词频分数计算单元,用于根据所述线性关系,计算所述第一候选词语的第一词频分数。
可选的,若已输入单词和正在输入的初始键码串为英文,所述词典为树形层级结构,并且所述词典中的每一个节点包括至少一个英文字符;
所述词典的第一层包括26个英文大写字符和/或26个英文小写字符;
从所述词典的首节点到每个根节点的路径所经过的节点中包含的字符构成一个单词;
所述词典中存储有各个单词的词频。
可选的,所述第二分数获取模块包括:
权重确定单元,用于根据所述周围字符与所述目标字符的距离,确定所述目标字符与周围字符的权重;
权重列表创建单元,用于根据字符输入顺序,以及所述目标字符与周围字符的权重,构建相应的键码串权重列表;
操作确定单元,用于通过所述键码串权重列表遍历所述词典,获取将所述初始键码串转换为所述词典中的各个单词所需操作的最少操作次数,其中,所述所需操作包括:字符插入操作、字符删除操作和周围字符替换操作;
第二字符串相似度确定单元,用于根据所述最少操作次数,以及进行周围字符替换操作时,所述目标字符与周围字符在所述键码串权重列表中的权重,确定所述初始键码串与所述词典中各个单词的第二字符串相似度。
可选的,所述候选词推荐模块包括:
第一词语选择单元,用于根据所述第一候选词语的词语分数,从所述第一候选词语中选择词语分数最高的r个第一目标候选词语;
第二词语选择单元,用于根据所述第二候选词语的词语分数,从所述二候选词语中选择词语分数最高的r个第二目标候选词语;
词语排序推荐单元,用于删除所述r个第一目标候选词语和所述r个第二目标候选词语中的重复词语,并综合对比剩余词语的词语分数,根据词语分数对所述剩余词语进行排序并推荐;
其中,r为预设的正整数。
本发明公开一种文本输入方法及装置。该方法中,在接收用户已输入单词后,通过用户已输入的单词和RNN语言模型,确定第一候选词语,然后综合第一候选词的第一字符串相似度以及第一词频分数,得到第一候选词语的词语分数。并且,该方法中,在接收用户正在输入的初始键码串后,确定初始键码串中包含的目标字符的周围字符,并根据目标字符及周围字符,遍历词典,获取初始键码串与所述词典中各个单词之间的第二字符串相似度,根据第二字符串相似度确定第二候选词,再综合第二候选词的第二字符串相似度和第二词频分数,得到第二候选词语的词语分数。
也就是说,本发明实施例公开的方案中,分别通过已输入单词和RNN语言模型,确定第一候选词语,以及通过正在输入的初始键码串和词典,确定第二候选词语,并综合考虑了各个候选词语的字符串相似度和词频分数,确定各个候选词语的词语分数,以便根据词语分数对各个候选词语进行排序,根据排序结果向用户推荐。因此,解决了现有技术中N元语言模型数据稀疏,所导致的推荐精度低的问题,并且,由于该方法在获取第二候选词时,考虑了目标字符的周围字符,从而能够起到纠错作用,进一步提高推荐精度。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例公开的一种文本输入方法的工作流程示意图;
图2为本发明实施例公开的又一种文本输入方法的工作流程示意图;
图3为本发明实施例公开的一种文本输入方法中的词典的示意图;
图4为本发明实施例公开的又一种文本输入方法的工作流程示意图;
图5为本发明实施例公开的又一种文本输入方法的工作流程示意图;
图6为本发明实施例公开的一种文本输入装置的结构示意图。
具体实施方式
为了解决现有技术中的输入方法,由于使用的N元语言模型存在数据稀疏,以及由于用户输入错误,导致推荐精度低的问题,本发明通过以下各个实施例公开一种文本输入方法及装置。
本发明第一实施例公开一种文本输入方法,参见图1所示的工作流程示意图,本发明实施例公开的文本输入方法包括以下步骤:
步骤S11、接收用户已输入单词和正在输入的初始键码串。
在初始键码串中,包含用户正在输入的各个字符。
步骤S12、通过RNN语言模型,确定已输入单词的各个第一候选词语,获取所述初始键码串包含的各个目标字符与所述第一候选词语之间的第一字符串相似度,并获取所述第一候选词语的第一词频分数,根据所述第一字符串相似度和所述第一词频分数获取所述第一候选词语的词语分数。
通过查询RNN语言模型,即可确定已输入单词的各个第一候选词语,例如,若已输入单词为“three days”,则通过查询RNN语言模型,可获取“ago”和“later”等词语,“ago”和“later”等词语即为第一候选词语。
另外,初始键码串中往往包含多个字符,将初始键码串中包含的字符称为目标字符。获取第一候选词语后,根据目标字符与各个第一候选词语的匹配程度,即可获取目标字符与第一候选词语之间的第一字符串相似度。
在获取第一字符串相似度和第一候选词语的第一词频分数后,可通过预设的计算方法,计算第一候选词语的词语分数。例如,可将第一字符串相似度与第一词频分数相加的和作为第一候选词语的词语分数,或者,分别为第一字符串相似度和第一词频分数设置不同的权重,并将第一字符串相似度与其对应权重的积和第一词频分数与其对应权重的积相加,得到的值作为第一候选词语的词语分数。当然,也可以通过其他方式计算第一候选词语的词语分数,本发明实施例对此不做限定。
步骤S13、根据所述目标字符和所述目标字符的周围字符,遍历词典,获取所述初始键码串与所述词典中各个单词的第二字符串相似度,其中,第二字符串相似度大于预设值的单词为第二候选词,查询第二候选词在所述词典中的第二词频分数,根据所述第二字符串相似度和第二词频分数获取所述第二候选词的词语分数。
其中,周围字符即为目标字符相邻的字符。用户在文本输入的过程中,有可能会误触周围字符。例如,根据键盘布局可知,字符“N”即为字符“B”的周围字符,当用户需要输入“an”时,有可能误触周围字符,从而输入“ab”。
这种情况下,确定所述初始键码串包含的各个目标字符,根据键盘布局,确定目标字符的周围字符,然后,根据所述目标字符和所述周围字符遍历词典,与词典中各个单词相匹配,确定初始键码串与所述词典中各个单词的第二字符串相似度。
然后,根据第二字符串相似度确定第二候选词,通常查询词典,获取第二候选词的第二词频分数。
在获取第二字符串相似度和第二候选词语的第二词频分数后,可通过预设的计算方法,计算第二候选词语的词语分数。例如,可将第二字符串相似度与第二词频分数相加的和作为第二候选词语的词语分数,或者,分别为第二字符串相似度和第二词频分数设置不同的权重,并将第二字符串相似度与其对应权重的积和第二词频分数与其对应权重的积相加,得到的值作为第二候选词语的词语分数。当然,也可以通过其他方式计算第二候选词语的词语分数,本发明实施例对此不做限定。
步骤S14、根据所述第一候选词语的词语分数和所述第二候选词语的词语分数,确定本次向用户推荐的候选词。
该步骤中,在确定第一候选词语的词语分数和第二候选词语的词语分数,通常根据词语分数由大到小的顺序对各个候选词语排序,并将排序结果显示给用户,以实现向用户推荐候选词。
本发明第一实施例公开一种文本输入方法。该方法中,在接收用户已输入单词后,通过用户已输入的单词和RNN语言模型,确定第一候选词语,然后综合第一候选词的第一字符串相似度以及第一词频分数,得到第一候选词语的词语分数。并且,该方法中,在接收用户正在输入的初始键码串后,确定初始键码串中包含的目标字符的周围字符,并根据目标字符及周围字符,遍历词典,获取初始键码串与所述词典中各个单词之间的第二字符串相似度,根据第二字符串相似度确定第二候选词,再综合第二候选词的第二字符串相似度和第二词频分数,得到第二候选词语的词语分数。
也就是说,本发明实施例公开的文本输入方法中,分别通过已输入单词和RNN语言模型,确定第一候选词语,以及通过正在输入的初始键码串和词典,确定第二候选词语,并综合考虑了各个候选词语的字符串相似度和词频分数,确定各个候选词语的词语分数,以便根据词语分数对各个候选词语进行排序,根据排序结果向用户推荐。因此,解决了现有技术中N元语言模型数据稀疏,所导致的推荐精度低的问题,并且,由于该方法在获取第二候选词时,考虑了目标字符的周围字符,从而能够起到纠错作用,进一步提高推荐精度。
另外,在本发明第一实施例及图1公开的工作流程示意图中,确定已输入单词的各个第一候选词语,并获取第一候选词语的词语分数之后,再根据初始键码串中的目标字符及目标字符的周围字符确定第二候选词语,并获取第二候选词语的词语分数。但在实际的文本输入过程中,二者并没有严格的时间先后顺序,可以先执行确定第二候选词语,并获取第二候选词语的词语分数的操作,然后再确定已输入单词对应的各个第一候选词语,并获取第一候选词语的词语分数。或者,还可以同时执行这两项操作,本发明对此不做限定。
在上述实施例中,通过步骤S12公开了在确定已输入单词的各个第一候选词语之后,获取所述初始键码串包含的各个目标字符与所述第一候选词语之间的第一字符串相似度的操作。其中,该第一字符串相似度取决于目标字符与各个第一候选词语之间的匹配程度。
例如,若已输入单词为“three days”,通过查询RNN语言模型,确定“ago”和“later”等词语为第一候选词语,这种情况下,若用户正在输入的初始键码串为“ag”,由于其中的目标字符与“ago”的匹配程度更高,则目标字符与“ago”的第一字符串相似度大于目标字符与“later”的第一字符串相似度。
通过步骤S12,公开了获取第一候选词语的第一词频分数的操作。为了对该步骤进行详细阐述,作为图1方法的细化,在本发明另一实施例中,如图2所示,所述获取所述第一候选词语的第一词频分数,包括以下步骤:
步骤S21、通过所述RNN语言模型,获取所述第一候选词语在所述RNN语言模型中的RNN词频分数。
将各个已输入单词依次输入至RNN语言模型,RNN语言模型能够输出各个第一候选词语的列表,以及各个第一候选词语的RNN词频分数。
例如,若已输入单词为“three days”,将“three days”输入至RNN语言模型后,RNN语言模型可输出:{“age”:0.22,“later”:0.18,……}。其中,“age”和“later”即为第一候选词语,0.22为“age”的RNN词频分数,0.18为“later”的RNN词频分数。
步骤S22、查询词典,获取所述第一候选词语在所述词典中的词典词频分数。
步骤S23、通过所述第一候选词语的RNN词频分数和词典词频分数,获取所述第一候选词语的第一词频分数。
该步骤中,将第一候选词语的RNN词频分数和词典词频分数相结合,得到第一词频分数。
本发明实施例在计算第一候选词语的第一词频分数时,综合考虑了第一候选词语的RNN词频分数和词典词频分数,从而提高了获取第一候选词语的词频分数的准确性。
进一步的,在步骤S23中,公开了通过所述第一候选词语的RNN词频分数和词典词频分数,获取所述第一候选词语的第一词频分数的操作,该操作可通过以下步骤实现:
首先,通过预先设定的线性插值法,确定所述第一候选词语的RNN词频分数和词典词频分数的线性关系。
然后,根据所述线性关系,计算所述第一候选词语的第一词频分数。
在通过该步骤计算第一词频分数时,需要预先设定线性插值法,通过该线性插值法,能够确定第一候选词语的RNN词频分数和词典词频分数的线性关系,通过该线性关系,即可计算得到第一候选词语的第一词频分数。
另外,还可将第一候选词语的RNN词频分数和词典词频分数相加,将二者的和作为第一候选词语的第一词频分数。
当然,还可以采用其他方式获取第一候选词语的第一词频分数,本发明实施例对此不做限定。
在上述实施例公开的文本输入方法中,需要应用词典。为了详细阐述文本输入方法中的各个步骤,在本发明另一实施例中,对该词典进行介绍。
参见图3所示的词典示意图,本发明实施例中,若已输入单词和正在输入的初始键码串为英文,所述词典为树形层级结构,并且所述词典中的每一个节点包括至少一个英文字符。
若已输入单词和正在输入的初始键码串为英文,也就是说,用户本次进行文本输入时采用的是英文输入法。这种情况下,为了能够向用户推荐候选词语,采用的词典为英文输入法的词典,因此,所述词典中的每一个节点包括至少一个英文字符。
并且,所述词典的第一层包括26个英文大写字符和/或26个英文小写字符。从所述词典的首节点到每个根节点的路径所经过的节点中包含的字符构成一个单词。另外,在词典中,还存储有各个单词的词频。通常情况下,可将各个单词的词频存储至该单词的根节点处。其中,每个单词的词频通过对预先获取到的大量语料进行统计得到。
其中,在图3所示的示意图中,该词典的第一层同时包括26个英文大写字符和26个英文小写字符。另外,该词典的第一层中包含的各个节点即为首节点。
在该词典中,第二层的子节点在第一层的节点之下,相应的,各层的子节点均在上一层的节点之下。从所述词典的首节点到每个根节点的路径所经过的节点中包含的字符构成一个单词,该单词的首字符即为第一层的节点中包含的字符。
进一步的,在该词典中,还可以在每个节点中存储该字符是否可以成为一个单词的结尾的标签,并且,还可以存储该节点字符串的长度等。
另外,若已输入单词和正在输入的初始键码串为其他国家的文字,词典中各个节点包含的字符为相应国家采用语言的字符,以便使本发明实施例公开的文本输入方法能够应用于多种语言的应用场景下。
上述实施例中,通过步骤S13公开了根据所述目标字符和所述目标字符的周围字符,遍历词典,获取所述初始键码串与所述词典中各个单词的第二字符串相似度的操作。为了对该步骤进行详细阐述,作为图1方法的细化,在本发明另一实施例中,如图4所示,所述获取所述初始键码串与所述词典中各个单词的第二字符串相似度,包括以下步骤:
步骤S31、根据所述周围字符与所述目标字符的距离,确定所述目标字符与周围字符的权重。
在本发明实施例中,在确定用户正在输入的初始键码串中包含的各个目标字符后,根据键盘布局,确定周围字符。
这种情况下,在步骤S31中,将周围字符在键盘上的按键的中心点坐标与目标字符在键盘上的按键的中心点坐标之间的距离,作为周围字符与目标字符的距离,然后根据距离远近为周围字符标记相应权重,其中,距离越近的周围字符其权重越高。
例如,若初始键码串为“BUT”,用户在输入时,按照顺序分别在键盘上点击“B”、“U”和“T”三个目标字符,其中,目标字符“B”的周围字符分别为V、G、H、J和N五个字符,目标字符“U”的周围字符分别为Y、H、J和I四个字符,目标字符“T”的周围字符分别为周围字符分别为R、F、G、H和Y五个字符。
在其中一种设置目标字符与周围字符的权重的方法中,假设目标字符的权重为5.0,那么距离目标字符最近的周围字符的权重标记为4.5,距离目标字符第二近的周围字符的权重标记为4.0,并以此类推。
步骤S32、根据字符输入顺序,以及所述目标字符与周围字符的权重,构建相应的键码串权重列表。
在键码串权重列表中,包含各个目标字符、和周围字符及其对应的权重。例如,若初始键码串为“BUT”,则键码串权重列表可如下所示:
{
{[B,5.0],[N,4.5],[J,4.0],[V,3.5],[H,3.0],[G,2.5]},
{[U,5.0],[I,4.5],[J,4.0],[H,3.5],[Y,3.0]},
{[T,5.0],[R,4.5],[F,4.0],[G,3.5],[Y,3.0]},
}
步骤S33、通过所述键码串权重列表遍历所述词典,获取将所述初始键码串转换为所述词典中的各个单词所需操作的最少操作次数,其中,所述所需操作包括:字符插入操作、字符删除操作和周围字符替换操作。
用户在输入初始键码串时,有可能发生误触,导致用户输入目标字符的周围字符,即输入错误字符,和/或漏输入字符,和/或输入多余字符。
例如,若用户希望输入的初始键码串为but”,但是,用户在输入字符“u”时,有可能触碰到字符“i”,导致用户实际输入的初始键码串为“bit”;或者,用户漏输入字符“u”,导致用户实际输入的初始键码串为“bt”;或者,用户输入多余字符,导致用户实际输入的初始键码串可能为“bnut”等。若同时出现两种以上的错误,例如,若用户输入了周围字符“i”,且输入多余字符,则用户输入的初始键码串可能为“bite”。
由于用户在输入初始键码串时,可能会发生输入周围字符、漏输入字符和/或输入多余字符的问题,因此,在遍历词典的过程中,需要获取将初始键码串转换为词典中各个单词所需的最少操作次数。其中,插入一个字符,为一次操作次数。相应的,删除一个字符,以及与一个周围字符进行替换,分别为一次操作次数。
步骤S34、根据所述最少操作次数,以及进行周围字符替换操作时,所述目标字符与周围字符在所述键码串权重列表中的权重,确定所述初始键码串与所述词典中各个单词的第二字符串相似度。
该步骤中,通常将初始键码串转换为一个单词时,所需的最少操作次数越小,以及进行周围字符替换操作时,周围字符的权重越大,则该初始键码串与该单词之间的第二字符串相似度越大。
另外,在计算第二字符串相似度的过程中,可采用以下公式:
初始键码串与词典中某一个单词的第二字符串相似度=(初始键码串长度-相似度参数)/初始键码串长度。
相似度参数通过将该初始键码串转换为所述单词所需的最少操作次数,以及进行周围字符替换操作时,所述周围字符在所述键码串权重列表中的权重来确定。其中,每发生一次字符插入操作,或每发生一次字符删除操作,则相似度参数累加1。另外,若发生一次周围字符替换操作,则周围字符替换操作导致的相似度参数的累加值=(目标字符的权重与周围字符的权重之间的差值)/目标字符的权重。
这种情况下,若用户输入的初始键码串为“bite”,计算“bite”与“but”之间的第二字符串相似度时,需要将字符“e”删除,即执行一次字符删除操作,则相似度参数累加1。另外,还需要将“i”替换为“u”,该操作中,目标字符为“i”,周围字符为“u”,而目标字符“i”的权重为5,周围字符“u”的权重为4.5,则周围字符替换操作导致的相似度参数的累加值=(5-4.5)/5。
这种情况下,其中,“4”为初始键码串的长度,1为将字符“e”删除操作对相似度参数的累加值,为将目标字符“i”替换为周围字符“u”导致的相似度参数的累加值。
当然,在获取最少操作次数,以及进行周围字符替换操作时,所述目标字符与周围字符在所述键码串权重列表中的权重之后,也可通过其他方法确定初始键码串与所述词典中各个单词的第二字符串相似度,本发明实施例对此不做限定。
另外,在上述实施例中,通过步骤S14公开了根据所述第一候选词语的词语分数和所述第二候选词语的词语分数,确定本次向用户推荐的候选词的操作。
为了对该步骤进行详细阐述,作为图1方法的细化,在本发明另一实施例中,如图5所示,所述根据所述第一候选词语的词语分数和所述第二候选词语的词语分数,确定本次向用户推荐的候选词,包括以下步骤:
步骤S41、根据所述第一候选词语的词语分数,从所述第一候选词语中选择词语分数最高的r个第一目标候选词语。
步骤S42、根据所述第二候选词语的词语分数,从所述二候选词语中选择词语分数最高的r个第二目标候选词语。
步骤S43、删除所述r个第一目标候选词语和所述r个第二目标候选词语中的重复词语,并综合对比剩余词语的词语分数,根据词语分数对所述剩余词语进行排序并推荐。其中,r为预设的正整数。
r的具体数值可由工作人员预先设定。例如,若在文本输入的过程中,设定每次向用户推荐的候选词语为10个,则r的取值通常为10,通过步骤S41的操作,从第一候选词语中选择词语分数最高的10个词语,并通过步骤S42的操作,从第二候选词语中选择词语分数最高的10个词语,然后排除其中重复的词语,再将剩余的词语中按照词语分数从高到低的顺序进行排序,选择排序在前10位的词语,并向用户推荐。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
在本发明另一实施例中,公开一种文本输入装置。参见图6所示的结构示意图,所述文本输入装置包括:接收模块100、第一分数获取模块200、第二分数获取模块300和候选词推荐模块400。
其中,所述接收模块100用于接收用户已输入单词和正在输入的初始键码串。
所述第一分数获取模块200,用于通过RNN语言模型,确定已输入单词的各个第一候选词语,获取所述初始键码串包含的各个目标字符与所述第一候选词语之间的第一字符串相似度,并获取所述第一候选词语的第一词频分数,根据所述第一字符串相似度和所述第一词频分数获取所述第一候选词语的词语分数。
其中,通过查询RNN语言模型,即可确定已输入单词的各个第一候选词语,例如,若已输入单词为“three days”,则通过查询RNN语言模型,可获取“ago”和“later”等词语,“ago”和“later”等词语即为第一候选词语。
另外,初始键码串中往往包含多个字符,将初始键码串中包含的字符称为目标字符。获取第一候选词语后,根据目标字符与各个第一候选词语的匹配程度,即可获取目标字符与第一候选词语之间的第一字符串相似度。
第二分数获取模块300,用于根据所述目标字符和所述目标字符的周围字符,遍历词典,获取所述初始键码串与所述词典中各个单词的第二字符串相似度,其中,第二字符串相似度大于预设值的单词为第二候选词,查询第二候选词在所述词典中的第二词频分数,根据所述第二字符串相似度和第二词频分数获取所述第二候选词的词语分数。
其中,周围字符即为目标字符相邻的字符。用户在文本输入的过程中,有可能会误触周围字符。例如,根据键盘布局可知,字符“N”即为字符“B”的周围字符,当用户需要输入“an”时,有可能误触周围字符,从而输入“ab”。这种情况下,确定所述初始键码串包含的各个目标字符,根据键盘布局,确定目标字符的周围字符,然后,根据所述目标字符和所述周围字符遍历词典,与词典中各个单词相匹配,确定初始键码串与所述词典中各个单词的第二字符串相似度。
在获取第二字符串相似度和第二候选词语的第二词频分数后,可通过预设的计算方法,计算第二候选词语的词语分数。例如,可将第二字符串相似度与第二词频分数相加的和作为第二候选词语的词语分数,或者,分别为第二字符串相似度和第二词频分数设置不同的权重,并将第二字符串相似度与其对应权重的积和第二词频分数与其对应权重的积相加,得到的值作为第二候选词语的词语分数。当然,也可以通过其他方式计算第二候选词语的词语分数,本发明实施例对此不做限定。
候选词推荐模块400,用于根据所述第一候选词语的词语分数和所述第二候选词语的词语分数,确定本次向用户推荐的候选词。
其中,所述候选词推荐模块400在确定第一候选词语的词语分数和第二候选词语的词语分数,通常根据词语分数由大到小的顺序对各个候选词语排序,并将排序结果显示给用户,以实现向用户推荐候选词。
进一步的,在本发明实施例公开的文本输入装置中,所述第一分数获取模块包括:
RNN词频分数获取单元,用于通过所述RNN语言模型,获取所述第一候选词语在所述RNN语言模型中的RNN词频分数;
词典词频分数获取单元,用于查询词典,获取所述第一候选词语在所述词典中的词典词频分数;
第一词频分数获取单元,用于通过所述第一候选词语的RNN词频分数和词典词频分数,获取所述第一候选词语的第一词频分数。
其中,将各个已输入单词依次输入至RNN语言模型,RNN语言模型能够输出各个第一候选词语的列表,以及各个第一候选词语的RNN词频分数,从而能够获取第一候选词语在所述RNN语言模型中的RNN词频分数。
通过RNN词频分数获取单元、词典词频分数获取单元和第一词频分数获取单元,在计算第一候选词语的第一词频分数时,综合考虑了第一候选词语的RNN词频分数和词典词频分数,从而提高了获取第一候选词语的词频分数的准确性。
进一步的,所述第一词频分数获取单元包括:
线性关系确定单元,用于通过预先设定的线性插值法,确定所述第一候选词语的RNN词频分数和词典词频分数的线性关系;
第一词频分数计算单元,用于根据所述线性关系,计算所述第一候选词语的第一词频分数。
在本发明实施例公开的方案中,需要应用词典。以下对该词典进行介绍。
参见图3所示的词典示意图,本发明实施例中,若已输入单词和正在输入的初始键码串为英文,所述词典为树形层级结构,并且所述词典中的每一个节点包括至少一个英文字符。
若已输入单词和正在输入的初始键码串为英文,也就是说,用户本次进行文本输入时采用的是英文输入法。这种情况下,为了能够向用户推荐候选词语,采用的词典为英文输入法的词典,因此,所述词典中的每一个节点包括至少一个英文字符。
并且,所述词典的第一层包括26个英文大写字符和/或26个英文小写字符。从所述词典的首节点到每个根节点的路径所经过的节点中包含的字符构成一个单词。另外,在词典中,还存储有各个单词的词频。通常情况下,可将各个单词的词频存储至该单词的根节点处。其中,每个单词的词频通过对预先获取到的大量语料进行统计得到。
其中,在图3所示的示意图中,该词典的第一层同时包括26个英文大写字符和26个英文小写字符。另外,该词典的第一层中包含的各个节点即为首节点。
在该词典中,第二层的子节点在第一层的节点之下,相应的,各层的子节点均在上一层的节点之下。从所述词典的首节点到每个根节点的路径所经过的节点中包含的字符构成一个单词,该单词的首字符即为第一层的节点中包含的字符。
进一步的,在该词典中,还可以在每个节点中存储该字符是否可以成为一个单词的结尾的标签,并且,还可以存储该节点字符串的长度等。
另外,若已输入单词和正在输入的初始键码串为其他国家的文字,词典中各个节点包含的字符为相应国家采用语言的字符,以便使本发明实施例公开的文本输入方法能够应用于多种语言的应用场景下。
进一步的,在本发明实施例公开的文本输入装置中,所述第二分数获取模块包括:
权重确定单元,用于根据所述周围字符与所述目标字符的距离,确定所述目标字符与周围字符的权重;
权重列表创建单元,用于根据字符输入顺序,以及所述目标字符与周围字符的权重,构建相应的键码串权重列表;
操作确定单元,用于通过所述键码串权重列表遍历所述词典,获取将所述初始键码串转换为所述词典中的各个单词所需操作的最少操作次数,其中,所述所需操作包括:字符插入操作、字符删除操作和周围字符替换操作;
第二字符串相似度确定单元,用于根据所述最少操作次数,以及进行周围字符替换操作时,所述目标字符与周围字符在所述键码串权重列表中的权重,确定所述初始键码串与所述词典中各个单词的第二字符串相似度。
其中,在本发明实施例中,在确定用户正在输入的初始键码串中包含的各个目标字符后,根据键盘布局,确定周围字符。另外,将周围字符在键盘上的按键的中心点坐标与目标字符在键盘上的按键的中心点坐标之间的距离,作为周围字符与目标字符的距离,然后根据距离远近为周围字符标记相应权重,其中,距离越近的周围字符其权重越高。
由于用户在输入初始键码串时,可能会发生输入周围字符、漏输入字符和/或输入多余字符的问题,因此,在遍历词典的过程中,需要获取将初始键码串转换为词典中各个单词所需的最少操作次数。其中,插入一个字符,为一次操作次数。相应的,删除一个字符,以及与一个周围字符进行替换,分别为一次操作次数。
所述第二字符串相似度确定单元在计算第二字符串相似度时,通常将初始键码串转换为一个单词时,所需的最少操作次数越小,以及进行周围字符替换操作时,周围字符的权重越大,则该初始键码串与该单词之间的第二字符串相似度越大。
进一步的,在本发明实施例公开的文本输入装置中,所述候选词推荐模块包括:
第一词语选择单元,用于根据所述第一候选词语的词语分数,从所述第一候选词语中选择词语分数最高的r个第一目标候选词语;
第二词语选择单元,用于根据所述第二候选词语的词语分数,从所述二候选词语中选择词语分数最高的r个第二目标候选词语;
词语排序推荐单元,用于删除所述r个第一目标候选词语和所述r个第二目标候选词语中的重复词语,并综合对比剩余词语的词语分数,根据词语分数对所述剩余词语进行排序并推荐;其中,r为预设的正整数。
r的具体数值可由工作人员预先设定。例如,若在文本输入的过程中,设定每次向用户推荐的候选词语为10个,则r的取值通常为10,通过步骤S41的操作,从第一候选词语中选择词语分数最高的10个词语,并通过步骤S42的操作,从第二候选词语中选择词语分数最高的10个词语,然后排除其中重复的词语,再将剩余的词语中按照词语分数从高到低的顺序进行排序,选择排序在前10位的词语,并向用户推荐。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于……实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。
以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims (12)

1.一种文本输入方法,其特征在于,包括:
接收用户已输入单词和正在输入的初始键码串;
通过RNN语言模型,确定已输入单词的各个第一候选词语,获取所述初始键码串包含的各个目标字符与所述第一候选词语之间的第一字符串相似度,并获取所述第一候选词语的第一词频分数,根据所述第一字符串相似度和所述第一词频分数获取所述第一候选词语的词语分数;
根据所述目标字符和所述目标字符的周围字符,遍历词典,获取所述初始键码串与所述词典中各个单词的第二字符串相似度,其中,第二字符串相似度大于预设值的单词为第二候选词,查询第二候选词在所述词典中的第二词频分数,根据所述第二字符串相似度和第二词频分数获取所述第二候选词的词语分数;
根据所述第一候选词语的词语分数和所述第二候选词语的词语分数,确定本次向用户推荐的候选词。
2.根据权利要求1所述的文本输入方法,其特征在于,所述获取所述第一候选词语的第一词频分数,包括:
通过所述RNN语言模型,获取所述第一候选词语在所述RNN语言模型中的RNN词频分数;
查询词典,获取所述第一候选词语在所述词典中的词典词频分数;
通过所述第一候选词语的RNN词频分数和词典词频分数,获取所述第一候选词语的第一词频分数。
3.根据权利要求2所述的文本输入方法,其特征在于,所述通过所述第一候选词语的RNN词频分数和词典词频分数,获取所述第一候选词语的第一词频分数,包括:
通过预先设定的线性插值法,确定所述第一候选词语的RNN词频分数和词典词频分数的线性关系;
根据所述线性关系,计算所述第一候选词语的第一词频分数。
4.根据权利要求1所述的文本输入方法,其特征在于,
若已输入单词和正在输入的初始键码串为英文,所述词典为树形层级结构,并且所述词典中的每一个节点包括至少一个英文字符;
所述词典的第一层包括26个英文大写字符和/或26个英文小写字符;
从所述词典的首节点到每个根节点的路径所经过的节点中包含的字符构成一个单词;
所述词典中存储有各个单词的词频。
5.根据权利要求1所述的文本输入方法,其特征在于,所述获取所述初始键码串与所述词典中各个单词的第二字符串相似度,包括:
根据所述周围字符与所述目标字符的距离,确定所述目标字符与周围字符的权重;
根据字符输入顺序,以及所述目标字符与周围字符的权重,构建相应的键码串权重列表;
通过所述键码串权重列表遍历所述词典,获取将所述初始键码串转换为所述词典中的各个单词所需操作的最少操作次数,其中,所述所需操作包括:字符插入操作、字符删除操作和周围字符替换操作;
根据所述最少操作次数,以及进行周围字符替换操作时,所述目标字符与周围字符在所述键码串权重列表中的权重,确定所述初始键码串与所述词典中各个单词的第二字符串相似度。
6.根据权利要求1所述的文本输入方法,其特征在于,所述根据所述第一候选词语的词语分数和所述第二候选词语的词语分数,确定本次向用户推荐的候选词,包括:
根据所述第一候选词语的词语分数,从所述第一候选词语中选择词语分数最高的r个第一目标候选词语;
根据所述第二候选词语的词语分数,从所述二候选词语中选择词语分数最高的r个第二目标候选词语;
删除所述r个第一目标候选词语和所述r个第二目标候选词语中的重复词语,并综合对比剩余词语的词语分数,根据词语分数对所述剩余词语进行排序并推荐;
其中,r为预设的正整数。
7.一种文本输入装置,其特征在于,包括:
接收模块,用于接收用户已输入单词和正在输入的初始键码串;
第一分数获取模块,用于通过RNN语言模型,确定已输入单词的各个第一候选词语,获取所述初始键码串包含的各个目标字符与所述第一候选词语之间的第一字符串相似度,并获取所述第一候选词语的第一词频分数,根据所述第一字符串相似度和所述第一词频分数获取所述第一候选词语的词语分数;
第二分数获取模块,用于根据所述目标字符和所述目标字符的周围字符,遍历词典,获取所述初始键码串与所述词典中各个单词的第二字符串相似度,其中,第二字符串相似度大于预设值的单词为第二候选词,查询第二候选词在所述词典中的第二词频分数,根据所述第二字符串相似度和第二词频分数获取所述第二候选词的词语分数;
候选词推荐模块,用于根据所述第一候选词语的词语分数和所述第二候选词语的词语分数,确定本次向用户推荐的候选词。
8.根据权利要求7所述的文本输入装置,其特征在于,所述第一分数获取模块包括:
RNN词频分数获取单元,用于通过所述RNN语言模型,获取所述第一候选词语在所述RNN语言模型中的RNN词频分数;
词典词频分数获取单元,用于查询词典,获取所述第一候选词语在所述词典中的词典词频分数;
第一词频分数获取单元,用于通过所述第一候选词语的RNN词频分数和词典词频分数,获取所述第一候选词语的第一词频分数。
9.根据权利要求8所述的文本输入装置,其特征在于,所述第一词频分数获取单元包括:
线性关系确定单元,用于通过预先设定的线性插值法,确定所述第一候选词语的RNN词频分数和词典词频分数的线性关系;
第一词频分数计算单元,用于根据所述线性关系,计算所述第一候选词语的第一词频分数。
10.根据权利要求7所述的文本输入装置,其特征在于,
若已输入单词和正在输入的初始键码串为英文,所述词典为树形层级结构,并且所述词典中的每一个节点包括至少一个英文字符;
所述词典的第一层包括26个英文大写字符和/或26个英文小写字符;
从所述词典的首节点到每个根节点的路径所经过的节点中包含的字符构成一个单词;
所述词典中存储有各个单词的词频。
11.根据权利要求7所述的文本输入装置,其特征在于,所述第二分数获取模块包括:
权重确定单元,用于根据所述周围字符与所述目标字符的距离,确定所述目标字符与周围字符的权重;
权重列表创建单元,用于根据字符输入顺序,以及所述目标字符与周围字符的权重,构建相应的键码串权重列表;
操作确定单元,用于通过所述键码串权重列表遍历所述词典,获取将所述初始键码串转换为所述词典中的各个单词所需操作的最少操作次数,其中,所述所需操作包括:字符插入操作、字符删除操作和周围字符替换操作;
第二字符串相似度确定单元,用于根据所述最少操作次数,以及进行周围字符替换操作时,所述目标字符与周围字符在所述键码串权重列表中的权重,确定所述初始键码串与所述词典中各个单词的第二字符串相似度。
12.根据权利要求7所述的文本输入装置,其特征在于,所述候选词推荐模块包括:
第一词语选择单元,用于根据所述第一候选词语的词语分数,从所述第一候选词语中选择词语分数最高的r个第一目标候选词语;
第二词语选择单元,用于根据所述第二候选词语的词语分数,从所述二候选词语中选择词语分数最高的r个第二目标候选词语;
词语排序推荐单元,用于删除所述r个第一目标候选词语和所述r个第二目标候选词语中的重复词语,并综合对比剩余词语的词语分数,根据词语分数对所述剩余词语进行排序并推荐;
其中,r为预设的正整数。
CN201710931060.9A 2017-10-09 2017-10-09 一种文本输入方法及装置 Active CN107704102B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710931060.9A CN107704102B (zh) 2017-10-09 2017-10-09 一种文本输入方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710931060.9A CN107704102B (zh) 2017-10-09 2017-10-09 一种文本输入方法及装置

Publications (2)

Publication Number Publication Date
CN107704102A true CN107704102A (zh) 2018-02-16
CN107704102B CN107704102B (zh) 2021-08-03

Family

ID=61184900

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710931060.9A Active CN107704102B (zh) 2017-10-09 2017-10-09 一种文本输入方法及装置

Country Status (1)

Country Link
CN (1) CN107704102B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108563636A (zh) * 2018-04-04 2018-09-21 广州杰赛科技股份有限公司 提取文本关键词的方法、装置、设备及存储介质
CN108595419A (zh) * 2018-04-11 2018-09-28 广州视源电子科技股份有限公司 候选词评估方法、候选词排序方法及装置
CN108664466A (zh) * 2018-04-11 2018-10-16 广州视源电子科技股份有限公司 候选词评估方法、装置、计算机设备和存储介质
CN109032379A (zh) * 2018-07-25 2018-12-18 维沃移动通信有限公司 一种语言选项显示方法及终端
CN109492652A (zh) * 2018-11-12 2019-03-19 重庆理工大学 一种基于有序视觉特征单词库模型的相似图像判断方法
CN109977415A (zh) * 2019-04-02 2019-07-05 北京奇艺世纪科技有限公司 一种文本纠错方法及装置
CN110008383A (zh) * 2019-04-11 2019-07-12 北京安护环宇科技有限公司 一种基于多索引的黑白名单检索方法及装置
CN110874146A (zh) * 2018-08-30 2020-03-10 北京搜狗科技发展有限公司 一种输入方法、装置及电子设备
CN111651686A (zh) * 2019-09-24 2020-09-11 北京嘀嘀无限科技发展有限公司 一种测试处理方法、装置、电子设备及存储介质
CN109002186B (zh) * 2018-06-28 2020-12-25 北京金山安全软件有限公司 一种输入预测方法及装置
CN112699660A (zh) * 2019-10-23 2021-04-23 阿里巴巴集团控股有限公司 数据处理方法、系统及设备
CN112905026A (zh) * 2021-03-30 2021-06-04 完美世界控股集团有限公司 展示单词建议的方法、装置、存储介质及计算机设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101836205A (zh) * 2007-08-23 2010-09-15 谷歌股份有限公司 域词典创建
CN102968989A (zh) * 2012-12-10 2013-03-13 中国科学院自动化研究所 一种用于语音识别的Ngram模型改进方法
US20140164977A1 (en) * 2008-11-25 2014-06-12 Jeffrey R. Spetalnick Methods and systems for improved data input, compression, recognition, correction , and translation through frequency-based language anaysis
CN105009064A (zh) * 2013-01-15 2015-10-28 谷歌公司 使用语言和空间模型的触摸键盘
CN105229575A (zh) * 2013-03-14 2016-01-06 微软技术许可有限责任公司 基于多个语言模型的文本预测
CN107229348A (zh) * 2016-03-23 2017-10-03 北京搜狗科技发展有限公司 一种输入纠错方法、装置和用于输入纠错的装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101836205A (zh) * 2007-08-23 2010-09-15 谷歌股份有限公司 域词典创建
US20140164977A1 (en) * 2008-11-25 2014-06-12 Jeffrey R. Spetalnick Methods and systems for improved data input, compression, recognition, correction , and translation through frequency-based language anaysis
CN102968989A (zh) * 2012-12-10 2013-03-13 中国科学院自动化研究所 一种用于语音识别的Ngram模型改进方法
CN105009064A (zh) * 2013-01-15 2015-10-28 谷歌公司 使用语言和空间模型的触摸键盘
CN105229575A (zh) * 2013-03-14 2016-01-06 微软技术许可有限责任公司 基于多个语言模型的文本预测
CN107229348A (zh) * 2016-03-23 2017-10-03 北京搜狗科技发展有限公司 一种输入纠错方法、装置和用于输入纠错的装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张玮等: "词汇搭配和用户模型在拼音输入法中的应用", 《中文信息学报》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108563636A (zh) * 2018-04-04 2018-09-21 广州杰赛科技股份有限公司 提取文本关键词的方法、装置、设备及存储介质
CN108595419A (zh) * 2018-04-11 2018-09-28 广州视源电子科技股份有限公司 候选词评估方法、候选词排序方法及装置
CN108664466A (zh) * 2018-04-11 2018-10-16 广州视源电子科技股份有限公司 候选词评估方法、装置、计算机设备和存储介质
CN108664466B (zh) * 2018-04-11 2022-07-08 广州视源电子科技股份有限公司 候选词评估方法、装置、计算机设备和存储介质
CN109002186B (zh) * 2018-06-28 2020-12-25 北京金山安全软件有限公司 一种输入预测方法及装置
CN109032379A (zh) * 2018-07-25 2018-12-18 维沃移动通信有限公司 一种语言选项显示方法及终端
CN110874146A (zh) * 2018-08-30 2020-03-10 北京搜狗科技发展有限公司 一种输入方法、装置及电子设备
CN109492652B (zh) * 2018-11-12 2021-10-15 重庆理工大学 一种基于有序视觉特征单词库模型的相似图像判断方法
CN109492652A (zh) * 2018-11-12 2019-03-19 重庆理工大学 一种基于有序视觉特征单词库模型的相似图像判断方法
CN109977415A (zh) * 2019-04-02 2019-07-05 北京奇艺世纪科技有限公司 一种文本纠错方法及装置
CN110008383A (zh) * 2019-04-11 2019-07-12 北京安护环宇科技有限公司 一种基于多索引的黑白名单检索方法及装置
CN111651686A (zh) * 2019-09-24 2020-09-11 北京嘀嘀无限科技发展有限公司 一种测试处理方法、装置、电子设备及存储介质
CN111651686B (zh) * 2019-09-24 2021-02-26 北京嘀嘀无限科技发展有限公司 一种测试处理方法、装置、电子设备及存储介质
CN112699660A (zh) * 2019-10-23 2021-04-23 阿里巴巴集团控股有限公司 数据处理方法、系统及设备
CN112905026A (zh) * 2021-03-30 2021-06-04 完美世界控股集团有限公司 展示单词建议的方法、装置、存储介质及计算机设备
CN112905026B (zh) * 2021-03-30 2024-04-16 完美世界控股集团有限公司 展示单词建议的方法、装置、存储介质及计算机设备

Also Published As

Publication number Publication date
CN107704102B (zh) 2021-08-03

Similar Documents

Publication Publication Date Title
CN107704102A (zh) 一种文本输入方法及装置
CN102693309B (zh) 用于计算机辅助翻译的候选短语查询方法及辅助翻译系统
CN103098051B (zh) 搜索引擎优化助理
CN104102720B (zh) 高效输入的预测方法和装置
CN102439542B (zh) 电子设备的文本输入系统及文本输入方法
US10929603B2 (en) Context-based text auto completion
EP1840772A1 (en) Hierarchical clustering with real-time updating
JP6529761B2 (ja) 話題提供システム、及び会話制御端末装置
CN102945237A (zh) 基于原始用户输入建议和细分用户输入的系统和方法
JP2003248676A (ja) 解データ編集処理装置、解データ編集処理方法、自動要約処理装置、および自動要約処理方法
CN107665217A (zh) 一种用于搜索业务的词汇处理方法及系统
CN101645087A (zh) 一种分类词库系统及其更新和维护方法、以及客户端
CN103140849A (zh) 音译处理装置、程序、记录媒体及方法
CN110134970B (zh) 标题纠错方法和装置
CN110147544A (zh) 一种基于自然语言的指令生成方法、装置以及相关设备
CN108170662A (zh) 缩简词的消歧方法和消歧设备
US20050065947A1 (en) Thesaurus maintaining system and method
CN107315831A (zh) 一种挖掘规则关联模型未知关联关系的方法及装置
CN115329753A (zh) 一种基于自然语言处理的智能数据分析方法和系统
JP2006318509A (ja) 解データ編集処理装置および処理方法
CN111476003B (zh) 歌词改写方法及装置
JP2008146209A (ja) 文書検索装置、文書検索方法および文書検索プログラム
JP5911839B2 (ja) 情報検索システム、情報検索装置、情報検索方法、及びプログラム
JP2004253011A (ja) 自動要約処理装置および自動要約処理方法
CN111144096B (zh) 基于hmm的拼音补全的训练方法、补全模型、补全方法及补全输入法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant