CN108459733A - 辅助输入方法、装置、计算设备及存储介质 - Google Patents

辅助输入方法、装置、计算设备及存储介质 Download PDF

Info

Publication number
CN108459733A
CN108459733A CN201810118608.2A CN201810118608A CN108459733A CN 108459733 A CN108459733 A CN 108459733A CN 201810118608 A CN201810118608 A CN 201810118608A CN 108459733 A CN108459733 A CN 108459733A
Authority
CN
China
Prior art keywords
word
text content
history text
input
candidate word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810118608.2A
Other languages
English (en)
Inventor
陈程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Guangzhou Alibaba Literature Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Alibaba Literature Information Technology Co Ltd filed Critical Guangzhou Alibaba Literature Information Technology Co Ltd
Priority to CN201810118608.2A priority Critical patent/CN108459733A/zh
Publication of CN108459733A publication Critical patent/CN108459733A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0236Character input methods using selection techniques to select from displayed items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本申请提供的辅助输入方法、装置、计算设备及存储介质,其中,所述方法包括获取历史文本内容;对所述历史文本内容进行分词处理;统计所述历史文本内容中的每个词语出现频率;对所述历史文本内容中的词语按照出现频率降序排列,并选取出现频率满足第一阈值的词语作为第一候选词进行展示;接收被选定的第一候选词实现文本输入;通过上述方法可以在已有历史文本内容的基础上,新的文本内容输入之前根据已存在的文本内容预先选取第一候选词,然后接收被选定的第一候选词来完成文本输入,可以帮助用户提高写作效率和准确率,增强用户体验。

Description

辅助输入方法、装置、计算设备及存储介质
技术领域
本申请涉及数据处理技术领域,特别涉及辅助输入方法、装置、计算设备及存储介质。
背景技术
目前,在现有的移动终端写作过程中,用户一般都会采用拼音或者五笔进行输入,如果采用拼音输入,遇到同音字词的时候会出现很多字词需要靠翻页或者选按数码键进行选择,因而速度太慢;如果采用五笔输入,五笔输入法的字根难背,拆字难,记忆量大,难学易忘,不适合专业的写作人员使用,尤其是以单字为主输入,速度很慢。
采用拼音或者五笔这种比较单一的输入方式对专门写作的用户来说十分的不便,并且写作效率低并且准确率低,因此,如何对输入方式进行改进,以提高写作速度和准确率,是目前待解决的问题。
发明内容
有鉴于此,本申请实施例提供了一种辅助输入方法、装置、计算设备及存储介质,以解决现有技术中存在的技术缺陷。
本申请实施例公开了一种辅助输入方法,包括:
获取历史文本内容;
对所述历史文本内容进行分词处理;
统计所述历史文本内容中的每个词语出现频率;
对所述历史文本内容中的词语按照出现频率降序排列,并选取出现频率满足第一阈值的词语作为第一候选词进行展示;
接收被选定的第一候选词实现文本输入。
可选地,对所述历史文本内容进行分词处理包括:
通过采用词语切分算法、输入习惯或自定义规定对所述历史文本内容进行分词处理。
可选地,对所述历史文本内容进行分词处理之前,还包括:
确定并预处理所述历史文本内容中的英文字符、数字、不可识别字符以及标点符号。
可选地,选取出现频率满足第一阈值的词语作为第一候选词进行展示之后,还包括:
获取所述第一候选词的关联词;
将与所述第一候选词的关联度大于第二阈值的关联词作为第二候选词进行展示;
接收被选定的第一候选词实现文本输入之后还包括:
接收被选定的所述第二候选词实现文本输入。
另一方面,本申请一实施例还提供了一种辅助输入装置,包括:
第一获取模块,用于获取历史文本内容;
分词模块,用于对所述历史文本内容进行分词处理;
统计模块,用于统计所述历史文本内容中的每个词语出现频率;
第一展示模块,用于对所述历史文本内容中的词语按照出现频率降序排列,并选取出现频率满足第一阈值的词语作为第一候选词进行展示;
第一输入模块,用于接收被选定的第一候选词实现文本输入。
可选地,所述分词模块还用于通过采用词语切分算法、输入习惯或自定义规定对所述历史文本内容进行分词处理。
可选地,所述装置还包括:
预处理模块,用于确定并预处理所述历史文本内容中的英文字符、数字、不可识别字符以及标点符号。
可选地,所述装置还包括:
第二获取模块,用于获取所述第一候选词的关联词;
第二展示模块,用于将与所述第一候选词的关联度大于第二阈值的关联词作为第二候选词进行展示;
第二输入模块,用于接收被选定的所述第二候选词实现文本输入。
另一方面,本申请一实施例还提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现以下步骤:
获取历史文本内容;
对所述历史文本内容进行分词处理;
统计所述历史文本内容中的每个词语出现频率;
对所述历史文本内容中的词语按照出现频率降序排列,并选取出现频率满足第一阈值的词语作为第一候选词进行展示;
接收被选定的第一候选词实现文本输入。
另一方面,本申请一实施例还提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述辅助输入方法的步骤。
本申请提供的一种辅助输入方法、装置、计算设备及存储介质,其中,所述方法包括获取历史文本内容;对所述历史文本内容进行分词处理;统计所述历史文本内容中的每个词语出现频率;对所述历史文本内容中的词语按照出现频率降序排列,并选取出现频率满足第一阈值的词语作为第一候选词进行展示;接收被选定的第一候选词实现文本输入;通过上述方法可以在已有历史文本内容的基础上,新的文本内容输入之前根据已存在的文本内容预先选取第一候选词,然后通过接收被选定的第一候选词来完成文本输入,可以帮助用户提高写作效率和准确率,增强用户体验。
附图说明
图1为本申请一实施例提供的一种计算设备的结构示意图;
图2为本申请一实施例提供的一种辅助输入方法的流程图;
图3为本申请一实施例提供的第一候选词具体应用示例图;
图4为本申请一实施例提供的一种辅助输入方法的流程图;
图5为本申请一实施例提供的一种辅助输入方法的流程图;
图6为本申请一实施例提供的一种辅助输入方法的流程图;
图7为本申请一实施例提供的一种辅助输入装置的结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请中,“第一”、“第二”等仅用于彼此的区分,而非表示重要程度及顺序、以及互为存在的前提等。
在本申请中,提供了一种辅助输入方法、装置、计算设备及存储介质,在下面的实施例中逐一进行详细说明。
图1是示出了本申请一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于包括存储器110、处理器120及存储在存储器110上并可在处理器120上运行的计算机指令。
虽然图1中没有示出,但是应该知道,计算设备100还可以包括网络接口,网络接口使得计算设备100能够经由一个或多个网络通信。这些网络的示例包括局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。网络接口可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。计算设备可以通过网络接口访问页面。
在本申请的一个实施例中,计算设备100的上述以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
其中,处理器120可以执行图2所示方法中的步骤。图2是示出了根据本申请一实施例的辅助输入方法的示意性流程图,包括步骤201至步骤205。
步骤201:获取历史文本内容。
本申请实施例中,所述历史文本内容为当前已存在的所有的文本内容,例如作家a创造一篇名为“青春”的小说,目前已经创作出八页零三段的文本内容,那么获取的历史文本内容则为a已经创作出的所述八页零三段的所有文本内容。
步骤202:对所述历史文本内容进行分词处理。
本申请实施例中,可以预先构建一个分词模型,通过分词模型对所述历史文本内容进行分词处理,得到所述历史文本内容的分词结果,即是将所述历史文本内容切分为词语;所述分词模型可以为基于神经网络等人工智能的方式建立的。
例如创作者a创作的小说中的历史文本内容为“在最显眼处高高悬挂一张纯金打造的大榜,金光灿灿,吸引着每个进入的客人住足仰望”,采用分词模型对所述历史文本内容进行词语切分,可能得到的词语切分后的结果为:“在”、“最显眼”、“处”、“高高”、“悬挂”、“一张”、“纯金打造”、“的”、“大榜”、“金光灿灿”、“吸引着”、“每个”、“进入的”、“客人”、“住足仰望”。
本申请实施例中,对所述历史文本内容进行分词处理的方式包括但不局限于采用分词模型,还可以根据实际应用选择最为合适的分词方式,在进行分词之后还可以对词语进行检验和修正,具体检验和修正的方法可以根据实际情况选择,本申请对此不作限定。
步骤203:统计所述历史文本内容中的每个词语出现频率。
本申请实施例中,可以采用统计器或者其他统计软件对所述历史文本内容进行切分后的每个词语进行统计,具体统计每个词语在所述历史文本内容中出现的频率,即次数。
步骤204:对所述历史文本内容中的词语按照出现频率降序排列,并选取出现频率满足第一阈值的词语作为第一候选词进行展示。
步骤205:接收被选定的第一候选词实现文本输入。
本申请实施例中,所述降序排列即是按照每个词语出现的次数,从大到小对词语进行顺序排列,所述第一阈值可以根据创作者使用的终端的输入界面中的展示面积进行设定,例如创作者使用手机进行文本创作,手机的输入界面较小,一般输入区上面的待选条里面一次只能显示四个词语,这时可以将第一阈值设置为4,按照从大到小的顺序将排序好的前四个词语显示在待选条中,在进行文本输入时,需要用到显示在待选条中的某个词语时,直接接收被选定的该词语实现文本输入即可,无需再进行拼音或者五笔输入,并且速度快,准确度高。
举例来说,假设对所述历史文本内容进行分词处理后得到词语为张三、李四、张三、张三、李四、张三、潘家园、李四、张三、潘家园、武林至尊、李四、明月台、武林至尊、潘家园,统计所述历史文本内容中的每个词语出现频率,即为词语“张三”出现5次,词语“李四”出现4次,词语“潘家园”出现3次,词语“武林至尊”出现2次,词语“明月台”出现1次。
参见图3,在具体应用中,对所述历史文本内容中的词语按照出现频率降序排列,即为:词语“张三”、“李四”、“潘家园”、“武林至尊”、“明月台”,如果所述第一阈值为4,那么所述第一候选词则为排序为前四的词语“张三”、“李四”、“潘家园”、“武林至尊”。
然后接收被选定的第一候选词实现文本输入,例如所述第一候选词为词语“张三”、“李四”、“潘家园”、“武林至尊”,在进行文章写作时遇到使用到词语“武林至尊”时,可以直接接收被选定的词语“武林至尊”实现写作,无需再使用任何输入法实现对词语“武林至尊”的输入。
本申请实施例提供的方法在已有历史文本内容的基础上,新的文本内容输入之前根据已存在的文本内容预先选取第一候选词,然后通过接收被选定的第一候选词来完成文本输入,可以帮助用户提高写作效率和准确率,增强用户体验。
参见图4,本申请一实施例提供了一种辅助输入方法,其中,图1中的所述处理器120可以执行图4所示方法中的步骤。图4是示出了根据本申请一实施例的页面访问方法的示意性流程图,包括步骤401至步骤405。
步骤401:获取历史文本内容。
步骤402:通过采用词语切分算法、输入习惯或自定义规定对所述历史文本内容进行分词处理。
本申请实施例中,所述词语切分算法包括正向最大匹配法、逆向最大匹配法,例如采用正向最大匹配法进行分词,输入“人生要真正具有清楚的方向感”,分词后则是“人生/要/真正/具有/清楚/的/方向/感”,采用逆向最大匹配法进行分词,分词后则是“人生/要/真正/具有/清楚/的/方/向感”,采用词语切分算法进行词语的切分,可以更加精确。
可选地,还可以根据输入习惯对历史文本内容进行分词处理,所述输入习惯可以是根据创作者的个人输入习惯进行词语的切分,例如创作者c已经写了历史文本内容b,其中,创作者c在写历史文本内容b时,写“这段路很远又很近”这句话时,习惯将“这段路”作为一次输入,“很远”作为一次输入,“又很近”作为一次输入,那么根据输入习惯进行分词的时候,就会将“这段路很远又很近”这句话分为三个词语,分别为“这段路/很远/又很近”,采用输入习惯对历史文本内容进行分词处理这种方法使得词语切分更加灵活,用户体验较好。
可选地,还可以根据自定义规定对历史文本内容进行分词处理,例如历史文本内容为“洛阳新安吕氏是个什么样的家族”,创作者可以按照自己的意愿进行自定义分词,可以将该历史文本内容分为“洛阳/新安吕氏/是个/什么样的/家族”,也可以分为“洛阳/新安/吕氏/是个/什么样/的家族”,采用这种自定义的方式使得分词更加人性化。
步骤403:统计所述历史文本内容中的每个词语出现频率。
步骤404:对所述历史文本内容中的词语按照出现频率降序排列,并选取出现频率满足第一阈值的词语作为第一候选词进行展示。
步骤405:接收被选定的第一候选词实现文本输入。
本申请实施例提供的方法在已有历史文本内容的基础上,新的文本内容输入之前根据已存在的文本内容通过词语频率、创作者的输入习惯或者创作者自定义规则的方式预先选取第一候选词,然后通过接收被选定的第一候选词来完成文本输入,可以帮助用户提高写作效率和准确率,增强用户体验,并且灵活性较高。
参见图5,本申请一实施例提供了一种辅助输入方法,其中,图1中的所述处理器120可以执行图5所示方法中的步骤。图5是示出了根据本申请一实施例的页面访问方法的示意性流程图,包括步骤501至步骤506。
步骤501:获取历史文本内容。
步骤502:确定并预处理所述历史文本内容中的英文字符、数字、不可识别字符以及标点符号。
本申请实施例中,获取到的所述历史文本内容中会存在英文字符、数字、不可识别字符以及标点符号,在进行分词的时,英文字符、数字、不可识别字符以及标点符号均会影响分词的效率和准确性,因此在对所述历史文本内容进行分词处理之前,将所述历史文本内容中的英文字符、数字、不可识别字符以及标点符号去除或者暂时覆盖掉再进行分词,就会极大的提高分词的效率和准确性。
步骤503:对所述历史文本内容进行分词处理。
步骤504:统计所述历史文本内容中的每个词语出现频率。
步骤505:对所述历史文本内容中的词语按照出现频率降序排列,并选取出现频率满足第一阈值的词语作为第一候选词进行展示。
步骤506:接收被选定的第一候选词实现文本输入。
本申请实施例提供的方法在已有历史文本内容的基础上,新的文本内容输入之前,在对历史文本内容进行预处理之后预先选取第一候选词,然后通过接收被选定的第一候选词来完成文本输入,可以帮助用户提高写作效率和准确率,增强用户体验,并且灵活性较高。
参见图6,本申请一实施例提供了一种辅助输入方法,其中,图1中的所述处理器120可以执行图6所示方法中的步骤。图6是示出了根据本申请一实施例的页面访问方法的示意性流程图,包括步骤601至步骤607。
步骤601:获取历史文本内容。
步骤602:对所述历史文本内容进行分词处理。
步骤603:统计所述历史文本内容中的每个词语出现频率。
步骤604:对所述历史文本内容中的词语按照出现频率降序排列,并选取出现频率满足第一阈值的词语作为第一候选词进行展示。
步骤605:获取所述第一候选词的关联词。
步骤606:将与所述第一候选词的关联度大于第二阈值的关联词作为第二候选词进行展示。
本申请实施例中,所述关联词一般是可以把两个或两个以上在意义上有密切关系的句子或者词语组合在一起的词语,可以是说话时很容易发现必须带有的一到二个词语,虽然意思不同,但连在一起无论是说还是听都觉得很舒服。将分句连起来,使它变为通顺、完整的一个句子,也可以是有转折关系、假设关系、并列关系、递进关系、选择关系、因果关系、承接关系、条件关系或者是相近关系的词语。
例如第一候选词为“武林至尊”、“一剑西来”、“千岩拱列”、“魔影纵横”等,可以根据这些词语的词意可以大致了解到创作者想要创作一篇武侠小说,则可以将与所述第一候选词意思较为相近的词语“侠肝义胆”、“大义凛然”、“狂放不羁”、“血雨腥风”等作为第一候选词的关联词;又例如第一候选词为“尽管”、“要是”、“一会儿”、“宁可”等,可以根据这些词语可以大致了解到创作者可能会使用到“还是”、“那么”、“一会儿”、“也不”等词语,则将这些词语作为第一候选词的关联词。
可选地,实际应用中第一候选词和第二候选词之间的关联度可以采用多种方式来计算和确定,本申请对此不作限定。例如,对于每两个词语,可以计算反映它们一起出现概率的统计值,并以该统计值来表示这两个词语的关联度。如果计算的统计值大于一定阈值,则可以认为这两个词语是关联词语。
本申请实施例中,所述第一候选词为“武林至尊”,获取所述第一候选词的关联词为“侠肝义胆”、“血雨腥风”,通过关联度计算得出,“武林至尊”与“侠肝义胆”的关联度为2,“武林至尊”与“血雨腥风”的关联度为5,“武林至尊”与“狂放不羁”的关联度为4,若所述第二阈值3,那么与所述第一候选词的关联度大于第二阈值的关联词则为“血雨腥风”和“狂放不羁”,那么词语“血雨腥风”和“狂放不羁”即为第二候选词。
步骤607:接收被选定的第一候选词和/或第二候选词实现文本输入。
本申请实施例中,可以接收被选定的第一候选词实现文本输入,还可以接收被选定的第二候选词实现文本输入,或者是接收被选定的第一候选词和所述第二候选词实现文本输入,实际应用中,设置的候选词越多,与历史文本内容的关联度越大,在进行文本输入时越更方便,不用采用任何输入法,只需要在设置好的第一候选词和/或第二候选词中接收被选定的词语就可以实现文本输入,并且预先设置的第一候选词和/或第二候选词准确度较高,通过直接接收被选定的词语实现文本输入,速度也会快很多,还可以降低创作者的劳动力。
本申请实施例提供的方法在已有历史文本内容的基础上,新的文本内容输入之前,预处理之后预先选取第一候选词,然后通过选择的所述第一候选词确定第二候选词,最后根据第一候选词和与所述第一候选词有关联度的第二候选词,然后通过接收被选定的第一候选词和/或第二候选词来实现文本输入,可以帮助用户提高写作效率和准确率,增强用户体验,并且灵活性较高。
参见图7,本申请一实施例还提供一种辅助输入装置,包括:
第一获取模块701,用于获取历史文本内容;
分词模块702,用于对所述历史文本内容进行分词处理;
统计模块703,用于统计所述历史文本内容中的每个词语出现频率;
第一展示模块704,用于对所述历史文本内容中的词语按照出现频率降序排列,并选取出现频率满足第一阈值的词语作为第一候选词进行展示;
第一输入模块705,用于接收被选定的第一候选词实现文本输入。
可选地,所述分词模块702还用于通过采用词语切分算法、输入习惯或自定义规定对所述历史文本内容进行分词处理。
可选地,所述装置还包括:
预处理模块,用于确定并预处理所述历史文本内容中的英文字符、数字、不可识别字符以及标点符号。
可选地,所述装置还包括:
第二获取模块,用于获取所述第一候选词的关联词;
第二展示模块,用于将与所述第一候选词的关联度大于第二阈值的关联词作为第二候选词进行展示;
第二输入模块,用于接收被选定的所述第二候选词实现文本输入。
本申请实施例提供的装置可以在已有历史文本内容的基础上,新的文本内容输入之前根据已存在的文本内容预先选取第一候选词,然后通过接收被选定的第一候选词来完成文本输入,可以帮助用户提高写作效率和准确率,增强用户体验。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述辅助输入方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的辅助输入方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述辅助输入方法的技术方案的描述。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (10)

1.一种辅助输入方法,其特征在于,包括:
获取历史文本内容;
对所述历史文本内容进行分词处理;
统计所述历史文本内容中的每个词语出现频率;
对所述历史文本内容中的词语按照出现频率降序排列,并选取出现频率满足第一阈值的词语作为第一候选词进行展示;
接收被选定的第一候选词实现文本输入。
2.根据权利要求1所述的方法,其特征在于,对所述历史文本内容进行分词处理包括:
通过采用词语切分算法、输入习惯或自定义规定对所述历史文本内容进行分词处理。
3.根据权利要求1所述的方法,其特征在于,对所述历史文本内容进行分词处理之前,还包括:
确定并预处理所述历史文本内容中的英文字符、数字、不可识别字符以及标点符号。
4.根据权利要求1所述的方法,其特征在于,选取出现频率满足第一阈值的词语作为第一候选词进行展示之后,还包括:
获取所述第一候选词的关联词;
将与所述第一候选词的关联度大于第二阈值的关联词作为第二候选词进行展示;
接收被选定的第一候选词实现文本输入之后还包括:
接收被选定的第二候选词实现文本输入。
5.一种辅助输入装置,其特征在于,包括:
第一获取模块,用于获取历史文本内容;
分词模块,用于对所述历史文本内容进行分词处理;
统计模块,用于统计所述历史文本内容中的每个词语出现频率;
第一展示模块,用于对所述历史文本内容中的词语按照出现频率降序排列,并选取出现频率满足第一阈值的词语作为第一候选词进行展示;
第一输入模块,用于接收被选定的第一候选词实现文本输入。
6.根据权利要求5所述的装置,其特征在于,所述分词模块还用于通过采用词语切分算法、输入习惯或自定义规定对所述历史文本内容进行分词处理。
7.根据权利要求5所述的装置,其特征在于,所述装置还包括:
预处理模块,用于确定并预处理所述历史文本内容中的英文字符、数字、不可识别字符以及标点符号。
8.根据权利要求5所述的装置,其特征在于,所述装置还包括:
第二获取模块,用于获取所述第一候选词的关联词;
第二展示模块,用于将与所述第一候选词的关联度大于第二阈值的关联词作为第二候选词进行展示;
第二输入模块,用于接收被选定的所述第二候选词实现文本输入。
9.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现以下步骤:
获取历史文本内容;
对所述历史文本内容进行分词处理;
统计所述历史文本内容中的每个词语出现频率;
对所述历史文本内容中的词语按照出现频率降序排列,并选取出现频率满足第一阈值的词语作为第一候选词进行展示;
接收被选定的第一候选词实现文本输入。
10.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-4任意一项所述方法的步骤。
CN201810118608.2A 2018-02-06 2018-02-06 辅助输入方法、装置、计算设备及存储介质 Pending CN108459733A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810118608.2A CN108459733A (zh) 2018-02-06 2018-02-06 辅助输入方法、装置、计算设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810118608.2A CN108459733A (zh) 2018-02-06 2018-02-06 辅助输入方法、装置、计算设备及存储介质

Publications (1)

Publication Number Publication Date
CN108459733A true CN108459733A (zh) 2018-08-28

Family

ID=63239546

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810118608.2A Pending CN108459733A (zh) 2018-02-06 2018-02-06 辅助输入方法、装置、计算设备及存储介质

Country Status (1)

Country Link
CN (1) CN108459733A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113835532A (zh) * 2020-06-08 2021-12-24 上海哔哩哔哩科技有限公司 文本输入方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080167858A1 (en) * 2007-01-05 2008-07-10 Greg Christie Method and system for providing word recommendations for text input
CN101470732B (zh) * 2007-12-26 2012-04-18 北京搜狗科技发展有限公司 一种辅助词库的生成方法和装置
CN106371624A (zh) * 2016-09-23 2017-02-01 百度在线网络技术(北京)有限公司 一种用于提供输入候选项的方法与装置
CN107168553A (zh) * 2017-07-17 2017-09-15 北京百度网讯科技有限公司 用于输入字词的方法和输入法
CN107609101A (zh) * 2017-09-11 2018-01-19 远光软件股份有限公司 智能交互方法、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080167858A1 (en) * 2007-01-05 2008-07-10 Greg Christie Method and system for providing word recommendations for text input
CN101470732B (zh) * 2007-12-26 2012-04-18 北京搜狗科技发展有限公司 一种辅助词库的生成方法和装置
CN106371624A (zh) * 2016-09-23 2017-02-01 百度在线网络技术(北京)有限公司 一种用于提供输入候选项的方法与装置
CN107168553A (zh) * 2017-07-17 2017-09-15 北京百度网讯科技有限公司 用于输入字词的方法和输入法
CN107609101A (zh) * 2017-09-11 2018-01-19 远光软件股份有限公司 智能交互方法、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113835532A (zh) * 2020-06-08 2021-12-24 上海哔哩哔哩科技有限公司 文本输入方法及系统

Similar Documents

Publication Publication Date Title
CN111414482B (zh) 一种事件论元抽取方法、装置以及电子设备
CN108628971A (zh) 不均衡数据集的文本分类方法、文本分类器及存储介质
CN108170818A (zh) 一种文本分类方法、服务器及计算机可读介质
CN109344245B (zh) 文本相似度计算方法及装置
CN108228571B (zh) 对联的生成方法、装置、存储介质及终端设备
CN115688920B (zh) 知识抽取方法、模型的训练方法、装置、设备和介质
CN112580324A (zh) 文本纠错方法、装置、电子设备以及存储介质
CN114841274B (zh) 语言模型的训练方法、装置、电子设备和存储介质
CN109947934A (zh) 针对短文本的数据挖掘方法及系统
CN111859953A (zh) 训练数据的挖掘方法、装置、电子设备及存储介质
CN113220835A (zh) 文本信息处理方法、装置、电子设备以及存储介质
CN112380847A (zh) 兴趣点处理方法、装置、电子设备及存储介质
CN102339278B (zh) 信息处理装置和信息处理方法
CN111563198A (zh) 一种物料召回方法、装置、设备及存储介质
CN111178082A (zh) 一种句向量生成方法、装置及电子设备
CN112466277B (zh) 韵律模型训练方法、装置、电子设备及存储介质
CN112541052B (zh) 确定问题的答案的方法、装置、设备及存储介质
CN108459733A (zh) 辅助输入方法、装置、计算设备及存储介质
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN115248890A (zh) 用户兴趣画像的生成方法、装置、电子设备以及存储介质
CN117290515A (zh) 文本标注模型的训练方法、文生图方法及装置
CN112560445A (zh) 一种市长热线热点诉求话题检测方法和装置
CN116932736A (zh) 一种基于用户需求结合倒排表的专利推荐方法
CN111428487A (zh) 模型训练方法、歌词生成方法、装置、电子设备及介质
CN109799917A (zh) 文字输入方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200407

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant after: Alibaba (China) Co.,Ltd.

Address before: 510627 Guangdong city of Guangzhou province Whampoa Tianhe District Road No. 163 Xiping Yun Lu Yun Ping square B radio tower 13 layer self unit 03

Applicant before: GUANGZHOU ALIBABA LITERATURE INFORMATION TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20180828

RJ01 Rejection of invention patent application after publication