CN111723567B - 文本选择数据处理方法、装置及设备 - Google Patents

文本选择数据处理方法、装置及设备 Download PDF

Info

Publication number
CN111723567B
CN111723567B CN202010429544.5A CN202010429544A CN111723567B CN 111723567 B CN111723567 B CN 111723567B CN 202010429544 A CN202010429544 A CN 202010429544A CN 111723567 B CN111723567 B CN 111723567B
Authority
CN
China
Prior art keywords
word segmentation
text
user
vocabulary
selection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010429544.5A
Other languages
English (en)
Other versions
CN111723567A (zh
Inventor
涂畅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010429544.5A priority Critical patent/CN111723567B/zh
Publication of CN111723567A publication Critical patent/CN111723567A/zh
Application granted granted Critical
Publication of CN111723567B publication Critical patent/CN111723567B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本说明书提供一种文本选择数据处理方法、装置及设备,根据提交文本选择请求的应用程序的应用类别,获取对应的目标分词词表,让分词器加载特定类别的目标分词词表,对用户长按区域附近的文本进行分词,然后按照分词结果设置文本选择的选择粒度,基于设置好的选择粒度供用户进行文本的选择。基于应用类别,加载对应的分词词表对待选择文本进行分词,分词结果更符合用户习惯,提高了文本选择的准确性。

Description

文本选择数据处理方法、装置及设备
技术领域
本说明书属于计算机技术领域,尤其涉及一种文本选择数据处理方法、装置及处理设备。
背景技术
随着计算机和互联网技术的发展,智能设备越来越普及,在使用智能设备时,时常会需要进行文本选择,如:选择指定的文本后复制发送给其他用户,或选择指定的文本后对该文本进行编辑或批注等。例如:用户在浏览某个应用程序的文本内容时,如果要复制其中的一段文本,通常需要逐个字符复制才能选出自己想要的文本。智能设备的屏幕大小有限,尤其对于触摸屏的智能设备需要通过手指按压等方式选择文本,有时候会难以选定想要的文本。
发明内容
本说明书实施例的目的在于提供一种文本选择数据处理方法、装置及处理设备,提高了文本选择数据处理的准确性和效率。
一方面,本说明书实施例提供了一种文本选择数据处理方法,所述方法包括:
获取发起文本选择请求的应用程序对应的应用类别;
根据所述应用类别获取所述应用程序对应的目标分词词表,并将所述目标分词词表发送至分词器;
利用加载了所述目标分词词表的分词器对所述文本选择请求选取的待选择文本进行分词;
根据分词结果设置所述待选择文本的选择粒度;
根据所述选择粒度确定出目标选择文本。
另一方面,本说明书提供了一种文本选择数据处理装置,包括:
应用类别确定模块,用于获取发起文本选择请求的应用程序对应的应用类别;
分词词表加载模块,用于根据所述应用类别获取所述应用程序对应的目标分词词表,并将所述目标分词词表发送至分词器;
分词模块,用于利用加载了所述目标分词词表的分词器对所述文本选择请求选取的待选择文本进行分词;
文本粒度调整模块,用于根据分词结果设置所述待选择文本的选择粒度;
文本选择模块,用于根据所述选择粒度确定出目标选择文本。
还一方面,本说明书实施例提供了一种文本选择数据处理设备,包括至少一个处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现上述文本选择数据处理方法。
本说明书提供的文本选择数据处理方法、装置及处理设备,根据提交文本选择请求的应用程序的应用类别,让分词器加载特定类别的目标分词词表,对用户长按区域附近的文本进行分词,然后按照分词结果设置文本选择的选择粒度,基于设置好的选择粒度供用户进行文本的选择。基于应用类别,加载对应的分词词表对待选择文本进行分词,分词结果更符合用户习惯,提高了文本选择的准确性。基于分词结果设置文本选择的选择粒度,词长度相对字符的长度较大,用户更容易选择想要的文本,也更容易确定要选择的文本边界,从而提高用户在不同应用程序内选择和复制文本的效率以及准确性。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本说明书实施例提供的文本选择数据处理方法实施例的流程示意图;
图2是本说明书又一个实施例中文本选择数据处理的流程示意图;
图3是本说明书提供的文本选择数据处理装置一个实施例的模块结构示意图;
图4是本说明书一个实施例中文本选择数据处理服务器的硬件结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
智能设备(如:智能手机、智能穿戴设备、计算机、平板电脑、游戏或阅读电子设备、智能车载设备等等)已经在人们的工作生活中逐渐普及,智能设备的功能也越来越丰富。人们在使用智能设备时,有些场景可能需要进行文本的选择,如:文本选择后复制以保存或发送给其他用户,或者选择文本进行编辑或批注等。许多智能设备都有触摸屏的功能,对于带有触摸屏的智能设备,用户在进行文本选择时,一般是通过手指按压屏幕进行文本选择,如:检测用户手指按压区域内的文本,用户通过移动手指选择自己需要的文本的边界。但是,一般设备的屏幕大小有限,并且手指的比较粗,移动不灵敏,可能无法准确选择出用户需要的文本。此外,通常情况下,文本选择的粒度是字符,用户需要用手指按压的方式一个字符一个字符的选择出自己需要的文本的边界,操作过程比较繁琐,并且难度比较大,文本选择的准确性不高。
图1是本说明书实施例提供的文本选择数据处理方法实施例的流程示意图。虽然本说明书提供了如下述实施例或附图所示的方法操作步骤或装置结构,但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者部分合并后更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中,这些步骤的执行顺序或装置的模块结构不限于本说明书实施例或附图所示的执行顺序或模块结构。所述的方法或模块结构的在实际中的装置、服务器或终端产品应用时,可以按照实施例或者附图所示的方法或模块结构进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境、甚至包括分布式处理、服务器集群的实施环境)。
具体的一个实施例如图1所示,本说明书提供的文本选择数据处理方法的一个实施例中,所述方法可以用于客户端(如:智能手机、平板电脑、计算机、车载设备、智能穿戴设备、电子阅读设备、游戏设备等)、服务器等终端,所述方法可以包括如下步骤:
步骤102、获取发起文本选择请求的应用程序对应的应用类别。
在具体的实施过程中,智能设备中通常会安装有不同的应用程序(app),应用程序可以理解为为了完成某项或某几项特定任务而被开发运行于操作系统之上的计算机程序,不同的应用程序可以提供不同的服务如:地图导航、视频播放、歌曲播放、小说阅读、游戏等等。本说明书实施例中的文本选择方法可以应用在安装有不同应用程序的智能设备中,当然,对于某些只能提供一种服务的智能设备,可以认为该智能设备就是一种应用程序,如:只能打游戏的游戏机可以认为是一种游戏应用程序,专用的电子阅读设备可以认为是一种阅读应用程序等。可以将本说明书实施例提供的文本选择方法集成在一个程序包或插件中,安装到智能设备中,该智能设备即可以使用本说明书实施例提供的文本选择方法的数据处理过程。
用户在使用智能设备时,可以打开安装在其中的应用程序,并对该应用程序中的某些文本进行选择,发起文本选择请求。如:用户打开智能手机中的小说阅读app后,并打开其中某篇小说进行阅读,阅读到某段时,该用户长按智能手机的屏幕,此时,可以认为用户在该小说阅读app中发起了文本选择请求。接收到用户发起的文本选择请求后,可以获取发起该文本选择请求的应用程序对应的应用类别。应用类别可以理解为应用程序所属的类别,可以预先将不同的应用程序进行分类,如:视频类、小说阅读类、社交类、游戏类、办公类、美食类、购物类、理财类等等。对于应用程序的分类可以基于实际需要进行,如:可以根据应用市场中对不同应用程序的分类确定出各个应用程序的类别,或者采用其他的方式对应用程序进行分类,本说明书实施例不作具体限定。
步骤104、根据所述应用类别获取所述应用程序对应的目标分词词表,并将所述目标分词词表发送至分词器。
在具体的实施过程中,确定出应用程序对应的应用类别后,可以确定出该应用类别的应用程序对应的目标分词词表,分词词表可以理解为用于分词的词典,可以作为分词的依据。获取到目标分词词表后,可以将目标分词词表发送至分词器,分词器可以用于对文本进行分词处理。不同应用类别的应用程序可以对应不同的分词器,不同的分词器中可以集成有不同的分词算法,当然,不同应用类别的应用程序也可以对应相同的分词器,只是分词器使用的分词词表不同。
本说明书一些实施例中,所述方法还包括:
采集不同应用类别的应用程序的用户使用数据、应用内容数据;
根据所述使用数据和所述应用内容数据,构建出不同应用类别的应用程序对应的分词词表。
在具体的实施过程中,可以预先采集不同应用类别的应用程序的用户使用数据以及应用内容数据,用户使用数据可以包括用户搜索、复制的数据,应用内容数据可以包括应用程序中的服务内容数据如:视频名称、小说名称、游戏名称、菜谱名称、演员名称等,也可以利用专家经验构建出专家知识库,专家知识库中可以包括应用程序的服务内容等数据,可以将专家知识库作为不同应用程序的应用程序内容。可以采集多个用户使用同一个应用类别的应用程序的用户使用数据,结合该应用类别的应用程序的应用内容数据,构建出该应用类别的应用程序的分词词表。如:可以将用户搜索、复制过的词语以及应用程序中的服务内容如:视频名称、小说名称等作为分词词表的一个分词。采用此方法,构建出不同应用类别的应用程序对应的分词词表。预先根据不同类别的应用程序,构建出不同类别应用程序对应的分词词表,为后续不同类别的应用程序内进行文本选择奠定了数据基础。基于应用类别,加载对应的分词词表对文本进行分词,分词结果更符合用户习惯。例如:遇到文本“当天真遇到现实”,如果是在视频类应用程序,分词结果可能是“当天真遇到现实”,如果是其他应用程序,分词结果可能就是“当、天真、遇到、现实”。
不同的应用类别对应的分词词表不同,分词结果自然也会不同,基于应用类别对待选择文本进行分词,更加符合用户的使用习惯,也能够提高分词的准确性和分词效率。
步骤106、利用加载了所述目标分词词表的分词器对所述文本选择请求选取的待选择文本进行分词。
在具体的实施过程中,确定出应用程序对应的应用类别,并获取到对应的目标分词词表后,可以利用分词器加载该目标分词词表。分词器加载目标分词词表后,可以以目标分词词表为依据,对文本选择请求选取的待选择文本进行分词。例如:可以将待选择文本域目标分词词表进行匹配,优选匹配到目标分词词表中词语作为分词结果,对于未匹配成功的文本可以采用机器学习算法如:神经网络算法、深度学习算法等对待处理文本进行分词处理。利用加载了目标分词词表的分词器对待处理文本进行分词的方法,可以依据实际需要进行选择,如:采用正向最大匹配法、逆向最大匹配法、双向最大匹配法等等,本说明书实施例不作具体限定。
步骤108、根据分词结果设置所述待选择文本的选择粒度。
在具体的实施过程中,对待选择文本进行分词后,可以将待选择文本划分为一个个词语或片段,基于分词结果调整待选择文本的选择粒度,选择粒度可以理解为在进行文本选择时能够选择的最小单位。例如:可以将分词结果中指定数量个词语作为一个文本选择的选择粒度。
本说明书一些实施例中,所述根据分词结果设置所述待选择文本的选择粒度,包括:
根据分词结果将每个词设置为一个文本选择的最小单位。
在进行选择粒度的设置时,可以将分词结果中的每个词设置为一个文本选择的最小单位,本说明书实施例基于分词结果设置选择粒度,设置的选择粒度是词粒度,而不再是字符粒度,用户不需要逐个字符的调整自己需要选择的文本,直接以词为单位选择自己需要的文本。词长度相对字较大,用户更容易选择想要的文本,也更容易确定要选择的文本边界,从而提高用户在不同应用程序内选择文本的效率。
步骤110、根据所述选择粒度确定出目标选择文本。
在具体的实施过程中,设置好待选择文本的选择粒度后,用户可以按照分好的选择粒度选择想要复制的文本片段,如:用户可以通过移动手指改变选择文本的边界,边界的移动粒度可以以设置好的选择粒度为单位,即以词粒度为单位进行文本选择,确定出目标选择文本。即用户通过手指左右移动选择文本的边界时,每一次移动可以以设置好的选择粒度为最小单位,即每次最小可以移动一个词的位置。通过以词粒度作为文本选择的选择粒度,可以避免因字符粒度太小而带来的边界选定困难,方便做文本选择和复制等操作。当然,若用户不满意选择粒度,也可以手动以字符为粒度对选择文本的边界进行选择若调整。
本说明书实施例提供的文本选择数据处理方法,根据提交文本选择请求的应用程序的应用类别,让分词器加载特定类别的目标分词词表,对用户长按区域附近的文本进行分词,然后按照分词结果设置文本选择的选择粒度,基于设置好的选择粒度供用户进行文本的选择。基于应用类别,加载对应的分词词表对待选择文本进行分词,分词结果更符合用户习惯,提高了文本选择的准确性。基于分词结果设置文本选择的选择粒度,词长度相对字符的长度较大,用户更容易选择想要的文本,也更容易确定要选择的文本边界,从而提高用户在不同应用程序内选择和复制文本的效率以及准确性。
在上述实施例的基础上,本说明书一些实施例中,所述方法还包括:
根据不同用户的设备使用数据,为不同用户构建出用户分词词表;
在接收到所述文本选择请求时,将所述用户分词词表和所述目标分词词表发送至所述分词器,以使得所述分词器基于所述用户分词词表和所述目标分词词表对所述文本选择请求选取的待选择文本进行分词。
在具体的实施过程中,设备使用数据可以包括用户在使用智能设备时的搜索数据、复制数据以及输入法数据等,一些输入法程序可以根据用户的输入数据构建出用户的常用词库。本说明书一些实施例中还可以根据不同用户的设备使用数据,为不同的用户定义个性化的用户分词词表。可以将用户分词词表和不同应用类别对应的分词词表一起作为用户文本选择的依据。即在用户使用某个应用程序发起文本选择请求后,可以获取该用户的用户分词词表以及该应用程序对应的目标分词词表,将用户分词词表和目标分词词表一起输入到分词器中,分词器基于加载的用户分词词表和目标分词词表对用户选择的待选择文本进行分词,并基于分词结果设置文本选择的选择粒度,以供用户进行文本选择。
本说明书实施例基于不同用户的设备使用数据,为不同用户定义个性化的用户分词词表,是的分词结果更加符合不同用户的使用习惯,提高了分词结果的准确性,满足不同用户的需求,为后续文本选择奠定了准确的数据基础。
在上述实施例的基础上,本说明书一些实施例中,所述方法还包括:
根据所述目标选择文本对发起所述文本选择请求的用户的用户分词词表进行更新。
在具体的实施过程中,根据用户的按压操作选择出目标选择文本后,可以基于用户的选择,对用户的用户分词词表进行更新调整,如:若用户选择的目标选择文本出现用户分词词表中没有的词语,则可以将新的词语添加到用户分词词表中。基于用户的选择进行用户分词词表的不断更新,以使得用户分词词表更加符合用户的使用习惯,提高分词的准确性,进一步提高文本选择的准确性。
在上述实施例的基础上,本说明书一些实施例中,所述方法还包括:
在接收到文本选择请求后,利用读屏接口读取长按区域内的文本作为待选择文本。
在具体的实施过程中,当用户打开智能设备中的应用程序后,可以通过长按屏幕中指定文本对应的区域,发起文本选择请求,此时可以通过读屏接口读取长按区域内的文本作为待选择文本。在读取长按区域内的文本时,还可以适当放宽按压区域,以便将用户选择的文本全部读取。
图2是本说明书又一个实施例中文本选择数据处理的流程示意图,下面结合图2具体介绍本说明书实施例中文本选择的数据处理过程:
1)用户打开特定的app即应用程序,通过长按发起“选择文本”的指令,即用户打开智能设备中的应用程序后,通过长按发起文本选择请求。
2)选择复制工具根据用户所选的app,确定app所属的应用类别,根据app的应用类别选定相应的分词词表,由分词器加载词表。如图2所示,不同类别的应用程序可以对应有不同的词表。
3)读取用户长按区域附近的文本,将文本送入加载了特定的分词词表的分词器,对文本进行分词。
4)基于分词结果改变文本选择的选择粒度,每个词为一个可选择的最小单位。
5)用户可以按照分好的词粒度选择想要复制的文本片段,避免因字符粒度太小而带来的边界选定困难,方便做文本选择和复制等操作。
本说明书实施例,通过读取用户长按区附近几行的文本,用加载特定词库的分词器对其进行分词,为用户提供词粒度而非字符粒度的文本,供用户选择和复制,大大提高用户选择复制文本的效率。基于app类别,加载对应的词表对文本进行分词,分词结果更符合用户习惯,使得提供的文本选择的选择粒度更加符合用户的需求,不需要用户去调整,提高了文本选择的准确性和效率。
本说明书中上述方法的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参考即可,每个实施例重点说明的都是与其他实施例的不同之处。相关之处参考方法实施例的部分说明即可。
基于上述所述的文本选择数据处理方法,本说明书一个或多个实施例还提供一种用于文本选择数据处理的系统。所述系统可以包括使用了本说明书实施例所述方法的系统(包括分布式系统)、软件(应用)、模块、组件、服务器、客户端等并结合必要的实施硬件的装置。基于同一创新构思,本说明书实施例提供的一个或多个实施例中的装置如下面的实施例所述。由于装置解决问题的实现方案与方法相似,因此本说明书实施例具体的装置的实施可以参考前述方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
具体地,图3是本说明书提供的文本选择数据处理装置一个实施例的模块结构示意图,如图3所示,本说明书中提供的文本选择数据处理装置可以包括:应用类别确定模块31、分词词表加载模块32、分词模块33、文本粒度调整模块34、文本选择模块35,其中:
应用类别确定模块31,可以用于获取发起文本选择请求的应用程序对应的应用类别;
分词词表加载模块32,可以用于根据所述应用类别获取所述应用程序对应的目标分词词表,并将所述目标分词词表发送至分词器;
分词模块33,可以用于利用加载了所述目标分词词表的分词器对所述文本选择请求选取的待选择文本进行分词;
文本粒度调整模块34,可以用于根据分词结果设置所述待选择文本的选择粒度;
文本选择模块35,可以用于根据所述选择粒度确定出目标选择文本。
本说明书实施例提供的文本选择数据处理装置,根据提交文本选择请求的应用程序的应用类别,让分词器加载特定类别的目标分词词表,对用户长按区域附近的文本进行分词,然后按照分词结果设置文本选择的选择粒度,基于设置好的选择粒度供用户进行文本的选择。基于应用类别,加载对应的分词词表对待选择文本进行分词,分词结果更符合用户习惯,提高了文本选择的准确性。基于分词结果设置文本选择的选择粒度,词长度相对字较大,用户更容易选择想要的文本,也更容易确定要选择的文本边界,从而提高用户在不同应用程序内选择和复制文本的效率以及准确性。
本说明书一些实施例中,所述装置还包括分词词表构建模块用于:
采集不同应用类别的应用程序的用户使用数据、应用内容数据;
根据所述使用数据和所述应用内容数据,构建出不同应用类别的应用程序对应的分词词表。
本说明书实施例,预先根据不同类别的应用程序,构建出不同类别应用程序对应的分词词表,为后续不同类别的应用程序内进行文本选择奠定了数据基础。不同的应用类别对应的分词词表不同,分词结果自然也会不同,基于应用类别对待选择文本进行分词,更加符合用户的使用习惯,也能够提高分词的准确性和分词效率。
在上述实施例的基础上,所述文本粒度调整模块具体用于:
根据分词结果将每个词设置为一个文本选择的最小单位。
本说明书实施例,基于分词结果设置选择粒度,设置的选择粒度是词粒度,而不再是字符粒度,用户不需要逐个字符的调整自己需要选择的文本,直接以词为单位选择自己需要的文本。词长度相对字较大,用户更容易选择想要的文本,也更容易确定要选择的文本边界,从而提高用户在不同应用程序内选择文本的效率。
在上述实施例的基础上,本说明书一些实施例中,所述装置还包括自定义词表模块,用于:
根据不同用户的设备使用数据,为不同用户构建出用户分词词表;
在接收到所述文本选择请求时,所述分词词表加载模块用于将所述用户分词词表和所述目标分词词表发送至所述分词器,以使得所述分词器基于所述用户分词词表和所述目标分词词表对所述文本选择请求选取的待选择文本进行分词。
本说明书实施例,基于不同用户的设备使用数据,为不同用户定义个性化的用户分词词表,是的分词结果更加符合不同用户的使用习惯,提高了分词结果的准确性,满足不同用户的需求,为后续文本选择奠定了准确的数据基础。
在上述实施例的基础上,本说明书一些实施例中,所述装置还包括词表更新模块,用于:
根据所述目标选择文本对发起所述文本选择请求的用户的用户分词词表进行更新。
本说明书实施例,基于用户的选择进行用户分词词表的不断更新,以使得用户分词词表更加符合用户的使用习惯,提高分词的准确性,进一步提高文本选择的准确性。
在上述实施例的基础上,本说明书一些实施例中,所述装置还包括文本读取模块用于:
在接收到文本选择请求后,利用读屏接口读取长按区域内的文本作为待选择文本。
本说明书实施例,通过读屏接口快速读取用户选择的待选择文本,通过读取用户长按区附近几行的文本,用加载特定词库的分词器对其进行分词,为用户提供词粒度而非字符粒度的文本,供用户选择和复制。
需要说明的,上述所述的装置根据对应方法实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照上述对应的方法实施例的描述,在此不作一一赘述。
本说明书实施例还提供一种文本选择数据处理设备,包括:至少一个处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现上述实施例的信息推荐数据处理方法,如:
获取发起文本选择请求的应用程序对应的应用类别;
根据所述应用类别获取所述应用程序对应的目标分词词表,并将所述目标分词词表发送至分词器;
利用加载了所述目标分词词表的分词器对所述文本选择请求选取的待选择文本进行分词;
根据分词结果设置所述待选择文本的选择粒度;
根据所述选择粒度确定出目标选择文本。
需要说明的,上述所述的处理设备根据方法实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照相关方法实施例的描述,在此不作一一赘述。
本说明书提供的文本选择数据处理装置,也可以应用在多种数据分析处理系统中。所述系统或服务器或终端或处理设备可以为单独的服务器,也可以包括使用了本说明书的一个或多个所述方法或一个或多个实施例系统或服务器或终端或处理设备的服务器集群、系统(包括分布式系统)、软件(应用)、实际操作装置、逻辑门电路装置、量子计算机等并结合必要的实施硬件的终端装置。所述核对差异数据的检测系统可以包括至少一个处理器以及存储计算机可执行指令的存储器,所述处理器执行所述指令时实现上述任意一个或者多个实施例中所述方法的步骤。
本说明书实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图4是本说明书一个实施例中文本选择数据处理服务器的硬件结构框图,该计算机终端可以是上述实施例中的文本选择数据处理服务器或文本选择数据处理装置。如图4所示服务器10可以包括一个或多个(图中仅示出一个)处理器100(处理器100可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的非易失性存储器200、以及用于通信功能的传输模块300。本领域普通技术人员可以理解,图4所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器10还可包括比图4中所示更多或者更少的组件,例如还可以包括其他的处理硬件,如数据库或多级缓存、GPU,或者具有与图4所示不同的配置。
非易失性存储器200可用于存储应用软件的软件程序以及模块,如本说明书实施例中的文本选择数据处理方法对应的程序指令/模块,处理器100通过运行存储在非易失性存储器200内的软件程序以及模块,从而执行各种功能应用以及资源数据更新。非易失性存储器200可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,非易失性存储器200可进一步包括相对于处理器100远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局与网、移动通信网及其组合。
传输模块300用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中,传输模块300包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输模块300可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书提供的上述实施例所述的方法或装置可以通过计算机程序实现业务逻辑并记录在存储介质上,所述的存储介质可以计算机读取并执行,实现本说明书实施例所描述方案的效果,如:
获取发起文本选择请求的应用程序对应的应用类别;
根据所述应用类别获取所述应用程序对应的目标分词词表,并将所述目标分词词表发送至分词器;
利用加载了所述目标分词词表的分词器对所述文本选择请求选取的待选择文本进行分词;
根据分词结果设置所述待选择文本的选择粒度;
根据所述选择粒度确定出目标选择文本。
所述存储介质可以包括用于存储信息的物理装置,通常是将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。所述存储介质有可以包括:利用电能方式存储信息的装置如,各式存储器,如RAM、ROM等;利用磁能方式存储信息的装置如,硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘;利用光学方式存储信息的装置如,CD或DVD。当然,还有其他方式的可读存储介质,例如量子存储器、石墨烯存储器等等。
本说明书实施例提供的上述文本选择数据处理方法或装置可以在计算机中由处理器执行相应的程序指令来实现,如使用windows操作系统的c++语言在PC端实现、linux系统实现,或其他例如使用android、iOS系统程序设计语言在智能终端实现,以及基于量子计算机的处理逻辑实现等。
需要说明的是说明书上述所述的装置、计算机存储介质、系统根据相关方法实施例的描述还可以包括其他的实施方式,具体的实现方式可以参照对应方法实施例的描述,在此不作一一赘述。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参考即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于硬件+程序类实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参考方法实施例的部分说明即可。
本说明书实施例并不局限于必须是符合行业通信标准、标准计算机资源数据更新和数据存储规则或本说明书一个或多个实施例所描述的情况。某些行业标准或者使用自定义方式或实施例描述的实施基础上略加修改后的实施方案也可以实现上述实施例相同、等同或相近、或变形后可预料的实施效果。应用这些修改或变形后的数据获取、存储、判断、处理方式等获取的实施例,仍然可以属于本说明书实施例的可选实施方案范围之内。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
虽然本说明书一个或多个实施例提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或终端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式资源数据更新环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
本发明是参照根据本发明实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程资源数据更新设备的处理器以产生一个机器,使得通过计算机或其他可编程资源数据更新设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程资源数据更新设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程资源数据更新设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储、石墨烯存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参考即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参考方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本说明书一个或多个实施例的实施例而已,并不用于限制本说明书一个或多个实施例。对于本领域技术人员来说,本说明书一个或多个实施例可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在权利要求范围之内。

Claims (7)

1.一种文本选择数据处理方法,所述方法包括:
获取发起文本选择请求的应用程序对应的应用类别;
根据所述应用类别获取所述应用程序对应的目标分词词表,并将所述目标分词词表发送至分词器;
利用加载了所述目标分词词表的分词器对所述文本选择请求选取的待选择文本进行分词;
根据分词结果设置所述待选择文本的选择粒度;包括:根据分词结果将每个词设置为一个文本选择的最小单位;
根据所述选择粒度确定出目标选择文本;
所述方法还包括:采集不同应用类别的应用程序的用户使用数据、应用内容数据;根据所述使用数据和所述应用内容数据,构建出不同应用类别的应用程序对应的分词词表;其中,用户使用数据包括用户搜索、复制的数据,应用内容数据包括应用程序中的服务内容数据;根据不同用户的设备使用数据,为不同用户构建出用户分词词表;在接收到所述文本选择请求时,将所述用户分词词表和所述目标分词词表发送至所述分词器,以使得所述分词器基于所述用户分词词表和所述目标分词词表对所述文本选择请求选取的待选择文本进行分词。
2.如权利要求1所述的方法,所述方法还包括:
根据所述目标选择文本对发起所述文本选择请求的用户的用户分词词表进行更新。
3.如权利要求1所述的方法,所述方法还包括:
在接收到文本选择请求后,利用读屏接口读取长按区域内的文本作为待选择文本。
4.一种文本选择数据处理装置,包括:
应用类别确定模块,用于获取发起文本选择请求的应用程序对应的应用类别;
分词词表加载模块,用于根据所述应用类别获取所述应用程序对应的目标分词词表,并将所述目标分词词表发送至分词器;
分词模块,用于利用加载了所述目标分词词表的分词器对所述文本选择请求选取的待选择文本进行分词;
文本粒度调整模块,用于根据分词结果设置所述待选择文本的选择粒度;所述文本粒度调整模块具体用于:根据分词结果将每个词设置为一个文本选择的最小单位;
文本选择模块,用于根据所述选择粒度确定出目标选择文本;
所述装置还包括分词词表构建模块用于:采集不同应用类别的应用程序的用户使用数据、应用内容数据;根据所述使用数据和所述应用内容数据,构建出不同应用类别的应用程序对应的分词词表;其中,用户使用数据包括用户搜索、复制的数据,应用内容数据包括应用程序中的服务内容数据;所述装置还包括自定义词表模块,用于:根据不同用户的设备使用数据,为不同用户构建出用户分词词表;在接收到所述文本选择请求时,所述分词词表加载模块用于将所述用户分词词表和所述目标分词词表发送至所述分词器,以使得所述分词器基于所述用户分词词表和所述目标分词词表对所述文本选择请求选取的待选择文本进行分词。
5.如权利要求4所述的装置,所述装置还包括词表更新模块,用于:
根据所述目标选择文本对发起所述文本选择请求的用户的用户分词词表进行更新。
6.如权利要求4所述的装置,所述装置还包括文本读取模块用于:
在接收到文本选择请求后,利用读屏接口读取长按区域内的文本作为待选择文本。
7.一种文本选择数据处理设备,包括:至少一个处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现权利要求1-3任一项所述的方法。
CN202010429544.5A 2020-05-20 2020-05-20 文本选择数据处理方法、装置及设备 Active CN111723567B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010429544.5A CN111723567B (zh) 2020-05-20 2020-05-20 文本选择数据处理方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010429544.5A CN111723567B (zh) 2020-05-20 2020-05-20 文本选择数据处理方法、装置及设备

Publications (2)

Publication Number Publication Date
CN111723567A CN111723567A (zh) 2020-09-29
CN111723567B true CN111723567B (zh) 2024-06-11

Family

ID=72564736

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010429544.5A Active CN111723567B (zh) 2020-05-20 2020-05-20 文本选择数据处理方法、装置及设备

Country Status (1)

Country Link
CN (1) CN111723567B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104281394A (zh) * 2013-07-05 2015-01-14 腾讯科技(深圳)有限公司 智能选词的方法和装置
CN107015738A (zh) * 2016-09-20 2017-08-04 阿里巴巴集团控股有限公司 一种文本选择方法和设备
CN110175223A (zh) * 2019-05-29 2019-08-27 北京搜狗科技发展有限公司 一种实现问题生成的方法及装置
CN111026319A (zh) * 2019-12-26 2020-04-17 腾讯科技(深圳)有限公司 一种智能文本处理方法、装置、电子设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009153270A1 (en) * 2008-06-16 2009-12-23 Jime Sa A method for classifying information elements

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104281394A (zh) * 2013-07-05 2015-01-14 腾讯科技(深圳)有限公司 智能选词的方法和装置
CN107015738A (zh) * 2016-09-20 2017-08-04 阿里巴巴集团控股有限公司 一种文本选择方法和设备
CN110175223A (zh) * 2019-05-29 2019-08-27 北京搜狗科技发展有限公司 一种实现问题生成的方法及装置
CN111026319A (zh) * 2019-12-26 2020-04-17 腾讯科技(深圳)有限公司 一种智能文本处理方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
探索用户自然输入标记及其在构建分词语料库中的作用;张大奎;尹德春;汤世平;毛煜;樊孝忠;;中文信息学报;20180215(02);全文 *

Also Published As

Publication number Publication date
CN111723567A (zh) 2020-09-29

Similar Documents

Publication Publication Date Title
CN111488426B (zh) 一种查询意图确定方法、装置及处理设备
CN110162796B (zh) 新闻专题创建方法和装置
US20160164815A1 (en) Terminal device and data processing method thereof
CN111144126A (zh) 一种语义分析模型的训练方法、语义分析方法及装置
CN104794115A (zh) 应用推荐方法和系统
CN115828162B (zh) 一种分类模型训练的方法、装置、存储介质及电子设备
CN106970758B (zh) 电子文档操作处理方法、装置和电子设备
CN111046304B (zh) 数据搜索方法及装置
CN117409466B (zh) 一种基于多标签控制的三维动态表情生成方法及装置
CN111488510B (zh) 小程序相关词的确定方法、装置、处理设备及搜索系统
CN116186330B (zh) 一种基于多模态学习的视频去重方法及装置
CN110390015B (zh) 一种数据信息处理方法、装置及系统
CN111177562B (zh) 一种目标对象的推荐排序处理方法、装置及服务器
CN111723567B (zh) 文本选择数据处理方法、装置及设备
CN110008398B (zh) 一种数据分类管理推荐方法及装置
CN117113174A (zh) 一种模型训练的方法、装置、存储介质及电子设备
CN108595395B (zh) 一种昵称的生成方法、装置及设备
CN112307371B (zh) 小程序子服务识别方法、装置、设备及存储介质
CN116127328A (zh) 一种对话状态识别模型的训练方法、装置、介质及设备
CN110321433B (zh) 确定文本类别的方法及装置
CN111026458B (zh) 一种应用程序退出时间设置方法及装置
CN109584088B (zh) 产品信息的推送方法及装置
CN116340469B (zh) 一种同义词挖掘方法、装置、存储介质及电子设备
CN117807961B (zh) 一种文本生成模型的训练方法、装置、介质及电子设备
CN115017915B (zh) 一种模型训练、任务执行的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant