CN111680503A - 文本处理方法、装置、设备及计算机可读存储介质 - Google Patents

文本处理方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN111680503A
CN111680503A CN202010512034.4A CN202010512034A CN111680503A CN 111680503 A CN111680503 A CN 111680503A CN 202010512034 A CN202010512034 A CN 202010512034A CN 111680503 A CN111680503 A CN 111680503A
Authority
CN
China
Prior art keywords
vocabulary
target
user
analysis result
text processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010512034.4A
Other languages
English (en)
Inventor
阳萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010512034.4A priority Critical patent/CN111680503A/zh
Publication of CN111680503A publication Critical patent/CN111680503A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请实施例提供一种文本处理方法、装置、设备及计算机可读存储介质,其中,方法包括:当终端在当前界面上显示文本信息时,对采集的目标对象的图像进行表情类型分析,得到类型分析结果;对所述目标对象进行视线分析,得到视线分析结果;根据所述视线分析结果,确定所述目标对象在所述当前界面上的注视区域;将所述文本信息在所述注视区域内的词汇确定为目标词汇;根据所述类型分析结果和所述视线分析结果中的至少之一,对所述目标词汇进行文本处理。通过本申请实施例,能够实现对用户所阅读的目标词汇的实时跟踪和自动处理,从而无需用户手动点击处理,使得用户的双手得到解放,提高用户体验。

Description

文本处理方法、装置、设备及计算机可读存储介质
技术领域
本申请实施例涉及互联网技术领域,涉及但不限于一种文本处理方法、装置、设备及计算机可读存储介质。
背景技术
随着互联网技术的发展与普及,用户在电子设备上阅读文章和资讯的情况越来越普及。而用户在阅读文章和资讯的时候,难免会遇到一些陌生的词汇,或者是有疑问想要进一步了解的词汇,或者想要翻译或分享的词汇。
相关技术中,对于用户在阅读文章和咨询过程中遇到的词汇,通常是用户选择词汇进行手动处理,例如,用户主动长按选择某词汇,再点击搜索选项以实现对该词汇的搜索;又例如,在用户阅读的文章和咨询中可以提前设置好热词链接,用户点击链接词即可进行搜索。
相关技术中,用户选择词汇进行手动处理的方法,用户需手动操作获取目标词汇,那么,当一篇文章遇到多个难点词汇等需要处理的词汇时,用户需手动操作多次,操作比较麻烦,特别是用户双手被其他事情占用的时候,更无法方便地对词汇进行处理。
发明内容
本申请实施例提供一种文本处理方法、装置、设备及计算机可读存储介质,通过表情类型分析和视线分析,以确定出用户注视的目标词汇,从而根据类型分析结果和视线分析结果中的至少一个,对目标词汇进行文本处理,如此,实现了对用户所阅读词汇的自动处理,无需用户手动点击处理,使得用户的双手得到解放,且能够缩短对词汇进行处理的时间,使阅读不被打断,阅读体验更加连贯。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种文本处理方法,包括:
当终端在当前界面上显示文本信息时,对采集的目标对象的图像进行表情类型分析,得到类型分析结果;
对所述目标对象进行视线分析,得到视线分析结果;
根据所述视线分析结果,确定所述目标对象在所述当前界面上的注视区域;
将所述文本信息在所述注视区域内的词汇确定为目标词汇;
根据所述类型分析结果和所述视线分析结果中的至少之一,对所述目标词汇进行文本处理。
本申请实施例提供一种文本处理装置,包括:
表情分析模块,用于当终端在当前界面上显示文本信息时,对采集的目标对象的图像进行表情类型分析,得到类型分析结果;
视线分析模块,用于对所述目标对象进行视线分析,得到视线分析结果;
第一确定模块,用于根据所述视线分析结果,确定所述目标对象在所述当前界面上的注视区域;
第二确定模块,用于将所述文本信息在所述注视区域内的词汇确定为目标词汇;
文本处理模块,用于根据所述类型分析结果和所述视线分析结果中的至少之一,对所述目标词汇进行文本处理。
本申请实施例提供一种文本处理设备,包括:
存储器,用于存储可执行指令;处理器,用于执行所述存储器中存储的可执行指令时,实现上述的方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现上述的方法。
本申请实施例具有以下有益效果:当终端在当前界面上显示文本信息时,对采集的目标对象的图像进行表情分析,并对目标对象进行视线分析,以确定出用户注视的目标词汇,从而根据类型分析结果和视线分析结果中的至少之一,对目标词汇进行文本处理,如此,实现了对用户所阅读的目标词汇的实时跟踪和自动处理,从而无需用户手动点击处理,使得用户的双手得到解放,且由于无需用户手动点击处理,因此能够缩短对词汇进行处理的时间,使阅读不被打断,阅读体验更加连贯。
附图说明
图1A是相关技术中的一种词汇搜索方法的流程示意图;
图1B是相关技术中的另一种词汇搜索方法的流程示意图;
图2A是本申请实施例提供的文本处理系统10的一个可选的架构示意图;
图2B是本申请实施例提供的文本处理系统10应用于区块链系统的一个可选的结构示意图;
图2C是本申请实施例提供的区块结构的一个可选的示意图;
图3是本申请实施例提供的服务器300的结构示意图;
图4是本申请实施例提供的文本处理方法的一个可选的流程示意图;
图5是本申请实施例提供的文本处理方法的一个可选的流程示意图;
图6是本申请实施例提供的文本处理方法的一个可选的流程示意图;
图7是本申请实施例提供的文本处理方法的一个可选的流程示意图;
图8是本申请实施例提供的文本处理方法的一个可选的流程示意图;
图9是本申请实施例提供的文本处理方法的一种产品交互流程图;
图10是本申请实施例提供的文本处理方法的另一种产品交互流程图;
图11是本申请实施例提供的功能开关的界面图;
图12是本申请实施例提供的文本处理方法的一种可选的实现流程示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。除非另有定义,本申请实施例所使用的所有的技术和科学术语与属于本申请实施例的技术领域的技术人员通常理解的含义相同。本申请实施例所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
为了更好地理解本申请实施例中提供的文本处理方法,首先对相关技术中的文本处理方法进行说明:
随着互联网技术的发展与普及,用户在电子设备上阅读文章和资讯的情况越来越普及。而用户在阅读文章和资讯的时候,难免会遇到一些陌生的词汇,或者是有疑问想要进一步了解的词汇,或者想要翻译或分享的词汇。下面以对用户有疑问的词汇进行搜索以获取词汇注释为例,对相关技术中的方案进行说明。
图1A是相关技术中的一种词汇搜索方法的流程示意图,如图1A所示,当用户通过文本阅读软件在终端上阅读文章101时,遇到不认识或想具体了解的词汇,例如“洛克菲勒”,则用户可以主动执行长按操作102以选择该词汇“洛克菲勒”,此时,长按操作102会调出操作选项103,在终端的当前界面上会显示操作选项103。操作选项103中可以包括例如“拷贝”、“全选”、“反馈错别字”和“搜索”等选项,用户点击“搜索”选项,则文本阅读软件对该词汇“洛克菲勒”进行搜索,得到搜索结果104并显示,即当用户点击“搜索”后,就会在当前界面上出现该词汇“洛克菲勒”的注释内容。
图1B是相关技术中的另一种词汇搜索方法的流程示意图,如图1B所示,在一些产品中,会在文章内容110里提前设置好热词链接111(即图1B中带下划线的词汇),用户可以直接点击词汇的热词链接111,即可对该词汇进行搜索。
需要说明的是,为了区分出哪些词汇具有热词链接而可以直接点击进行搜索,则可以将该词汇区别于其他词汇进行显示,例如,将热词链接111对应的词汇显示为蓝色,其他普通词汇显示为黑色。如图1B所示,为百度百科的界面,用户点击当前界面上所显示“幸福一定强”时,则以弹窗的形式显示“幸福一定强”对应的注释词条112。
相关技术中的上述获取词语注释的方法,用户仍需手动操作获取,那么,当用户在阅读一篇文章时遇到了多个难点词语的时候,用户需手动操作多次,操作比较麻烦,特别是用户双手被其他事情占用的时候,更无法方便地查询词语解释。
基于相关技术所存在的上述至少一个问题,本申请实施例提供一种文本处理方法,用于通过监测用户的表情和注视区域,实现在终端的当前界面上自动展示用户所注视的目标词汇的文本处理结果(例如,目标词汇的注释)。首先,当终端在当前界面上显示文本信息时,采用目标对象的图像,并对采集的目标对象的图像进行表情分析;然后,对目标对象进行视线分析,得到视线分析结果;并根据视线分析结果,确定用户在当前界面上的注视区域;将文本信息在注视区域内的词汇确定为目标词汇;最后,根据类型分析结果和视线分析结果中的至少之一,对目标词汇进行文本处理。如此,实现了对用户所阅读的目标词汇的实时跟踪和自动处理,从而无需用户手动点击处理,使得用户的双手得到解放,且由于无需用户手动点击处理,因此能够缩短对词汇进行处理的时间,使阅读不被打断,阅读体验更加连贯。另外,本申请实施例的方法还可以基于人工智能(AI,Artificial Intelligence)技术实现。
下面对人工智能技术进行简单介绍:人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。本申请实施例中,可以基于人工智能技术实现图像分割处理,即采用人工智能技术确定待分割图像的分割线,从而实现对待分割图像的分割处理,或者,基于人工智能的图像分割模型训练,即采用人工智能技术实现对图像分割模型进行训练。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。例如,当采用人工智能技术实现本申请实施例的图像处理方法时,可以采用人工智能芯片来进行一系列的运算处理,得到待分割图像的分割线。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。其中,计算机视觉技术(CV,Computer Vision)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方法,至少涉及到人工智能的计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等技术。
例如,可以采用计算机视觉技术对所采集的目标对象的图像进行图像识别和分析,分析目标对象的图像中的人脸和人眼等;又例如,可以采用计算机视觉技术对所采集的目标对象的图像进行表情分析和对人眼进行视线分析等;又例如,可以采用语音处理技术对采集到的目标对象的语音信息进行处理;又例如,可以采用自然语音处理技术对目标对象的语音信息进行识别,得到与目标对象的语音信息对应的语音词汇等;又例如,可以采用机器学习/深度学习技术训练图像分割模型、表情识别模型、预测模型等,通过所训练的模型来实现本申请实施例的文本处理方法。对于上述基于人工智能的处理方式,将在后续实施例中进行说明。
下面说明本申请实施例提供的文本处理设备的示例性应用,本申请实施例提供的文本处理设备可以实施为笔记本电脑,平板电脑,台式计算机,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备)、智能机器人、电子书阅读器等任意的具有图像采集装置的终端,也可以实施为服务器。下面,将说明文本处理设备实施为服务器时的示例性应用。
参见图2A,图2A是本申请实施例提供的文本处理系统10的一个可选的架构示意图。为支撑任意一种文本阅读应用,文本处理系统10中包括终端100、网络200和服务器300。其中,终端100上通过运行文本阅读应用实现对任一文本信息进行显示,并且,在终端100显示文本信息时,终端100上的图像采集单元采集目标对象的图像,并将目标对象的图像通过网络200发送给服务器300,服务器300对目标对象的图像进行表情分析,得到表情分析结果,对目标对象再进行视线分析,得到视线分析结果,并根据视线分析结果确定目标对象在当前界面上的注视区域;将文本信息在注视区域内的词汇确定为目标词汇;根据类型分析结果和视线分析结果中的至少之一,对目标词汇进行文本处理,得到文本处理结果,将文本处理结果通过网络200发送给终端100。终端100在接收到文本处理结果之后,将文本处理结果显示于终端100的当前界面100-1上。
本申请实施例涉及的文本处理系统10也可以是区块链系统的分布式系统201,参见图2B,图2B是本申请实施例提供的文本处理系统10应用于区块链系统的一个可选的结构示意图,其中,所述分布式系统201可以是由多个节点202(接入网络中的任意形式的计算设备,如服务器、用户终端)和客户端203形成的分布式节点,节点之间形成组成的点对点(P2P,Peer To Peer)网络,P2P协议是一个运行在传输控制协议(TCP,TransmissionControl Protocol)之上的应用层协议。在分布式系统中,任何机器如服务器、终端都可以加入而成为节点,节点包括硬件层、中间层、操作系统层和应用层。
需要说明的是,在分布式系统201中,每一节点202对应一终端100,在终端100上,会收集该终端100的阅读信息,其中,阅读信息包括但不限于用户阅读的文本信息、采集到的用户图像(即目标对象的图像)、服务器确定出的目标词汇和对目标词汇进行文本处理的文本处理结果。例如,可以收集用户在终端100上阅读的文章A,以及在阅读文章A的第N页时的用户图像、服务器根据用户图像确定出的目标词汇A1、对目标词汇A1进行文本处理得到的关于词汇A1的解释A11等阅读信息。
本申请实施例中,通过收集这些阅读信息,并将这些阅读信息上链存储,能够保证在后续确定用户阅读文章时需要进行文本处理的目标词汇时,可以从区块链系统中直接获取到所存储的阅读信息,根据所存储的阅读信息对后续的阅读过程中确定目标词汇的步骤提供准确的判断依据。
本申请实施例中,在该区块链系统中,每一用户的阅读信息均会被记录下来,且不可更改,并且,随着用户在终端100上进一步阅读新的文本信息,会产生新的阅读信息,因此会存在阅读信息的更新,那么,区块链中所存储的数据也会发生更新,因此,能够及时地对阅读信息进行更新,从而使得后续在确定目标词汇时,能够根据更加准确的阅读信息而确定出更加准确的目标词汇,并对目标词汇进行更加准确的文本处理。
参见图2B示出的区块链系统中各节点的功能,下面对区块链系统中各节点涉及的功能进行详细介绍:
1)路由,节点具有的基本功能,用于支持节点之间的通信。节点除具有路由功能外,还可以具有以下功能:
2)应用,用于部署在区块链中,根据实际业务需求而实现特定业务,记录实现功能相关的数据形成记录数据,在记录数据中携带数字签名以表示任务数据的来源,将记录数据发送到区块链系统中的其他节点,供其他节点在验证记录数据来源以及完整性成功时,将记录数据添加到临时区块中。例如,应用实现的业务包括:2.1)钱包,用于提供进行电子货币的交易的功能,包括发起交易(即,将当前交易的交易记录发送给区块链系统中的其他节点,其他节点验证成功后,作为承认交易有效的响应,将交易的记录数据存入区块链的临时区块中;当然,钱包还支持查询电子货币地址中剩余的电子货币。2.2)共享账本,用于提供账目数据的存储、查询和修改等操作的功能,将对账目数据的操作的记录数据发送到区块链系统中的其他节点,其他节点验证有效后,作为承认账目数据有效的响应,将记录数据存入临时区块中,还可以向发起操作的节点发送确认。2.3)智能合约,计算机化的协议,可以执行某个合约的条款,通过部署在共享账本上的用于在满足一定条件时而执行的代码实现,根据实际的业务需求代码用于完成自动化的交易,例如查询买家所购买商品的物流状态,在买家签收货物后将买家的电子货币转移到商户的地址;当然,智能合约不仅限于执行用于交易的合约,还可以执行对接收的信息进行处理的合约。
3)区块链,包括一系列按照产生的先后时间顺序相互接续的区块(Block),新区块一旦加入到区块链中就不会再被移除,区块中记录了区块链系统中节点提交的记录数据。
4)共识(Consensus),是区块链网络中的一个过程,用于在涉及的多个节点之间对区块中的交易达成一致,达成一致的区块将被追加到区块链的尾部,实现共识的机制包括工作量证明(PoW,Proof of Work)、权益证明(PoS,Pr oof of Stake)、股份授权证明(DPoS,Delegated Proof-of-Stake)、消逝时间量证明(PoET,Proof of Elapsed Time)等。
参见图2C,图2C是本申请实施例提供的区块结构(Block Structure)的一个可选的示意图,每个区块中包括本区块存储交易记录的哈希值(本区块的哈希值)、以及前一区块的哈希值,各区块通过哈希值连接形成区块链。另外,区块中还可以包括有区块生成时的时间戳等信息。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了相关的信息,用于验证其信息的有效性(防伪)和生成下一个区块。
参见图3,图3是本申请实施例提供的服务器300的结构示意图,图3所示的服务器300包括:至少一个处理器310、存储器350、至少一个网络接口320和用户接口330。服务器300中的各个组件通过总线系统340耦合在一起。可理解,总线系统340用于实现这些组件之间的连接通信。总线系统340除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图3中将各种总线都标为总线系统340。
处理器310可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口330包括使得能够呈现媒体内容的一个或多个输出装置331,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口330还包括一个或多个输入装置332,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器350可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器350可选地包括在物理位置上远离处理器310的一个或多个存储设备。存储器350包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器350旨在包括任意适合类型的存储器。在一些实施例中,存储器350能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统351,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块352,用于经由一个或多个(有线或无线)网络接口320到达其他计算设备,示例性的网络接口320包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
输入处理模块353,用于对一个或多个来自一个或多个输入装置332之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的装置可以采用软件方式实现,图3示出了存储在存储器350中的一种文本处理装置354,该文本处理装置354可以是服务器300中的一种文本处理装置,其可以是程序和插件等形式的软件,包括以下软件模块:表情分析模块3541、视线分析模块3542、第一确定模块3543、第二确定模块3544和文本处理模块3545,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
在另一些实施例中,本申请实施例提供的装置可以采用硬件方式实现,作为示例,本申请实施例提供的装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的文本处理方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件。
下面将结合本申请实施例提供的服务器300的示例性应用和实施,说明本申请实施例提供的文本处理方法。参见图4,图4是本申请实施例提供的文本处理方法的一个可选的流程示意图,将结合图4示出的步骤进行说明。
步骤S401,当终端在当前界面上显示文本信息时,对采集的目标对象的图像进行表情类型分析,得到类型分析结果。
这里,目标对象可以是终端的用户,当用户在终端上运行文本阅读应用以阅读文章时,在终端的当前界面上显示所阅读的文本信息,并且,在用户阅读文本信息的过程中,终端的图像采集单元(例如摄像头)开始工作,对用户的表情和视线进行实时监控。通过图像采集单元采集图像,这里目标对象的图像可以是用户图像,用户图像中包括用户的面部信息,因此,对用户图像中所包括的面部信息进行表情类型分析,以确定出用户当前的表情类型。
在一些实施例中,可以首先通过所采集的实时的面部信息识别出用户眼球的位置,并确定用户的眼球位置是否发生变化,当用户的眼球位置停留在同一位置的时长大于预设的时长阈值时,则表明用户当前长时间盯着一处位置阅读,则同时对采集的用户图像进行表情类型分析,确定用户是否出现疑问的表情,来确定是否要对用户长时间盯着的位置的词汇进行搜素。
下面对用户图像进行表情类型分析进行举例说明:例如,对用户图像进行表情类型分析,可以是识别出用户眉毛所在的位置,然后判断用户两眉毛之间的距离是否发生变化,或者距离是否减小,如果用户两眉毛之间的距离变小时,则表明用户出现皱眉的表情。又例如,可以识别用户嘴巴所在的位置,然后确定用户嘴角的弧度,如果用户的嘴角上扬,则表明用户出现开心的微笑表情,如果用户的嘴角下移,则表明用户出现不开心的表情。再例如,可以识别用户眼睛所在的位置,然后判断用户眼睛的大小,如果用户眼睛睁大,则表明用户出现愤怒的表情,如果用户的眼睛变小或眼睛眯成一条缝隙,则表情用户出现疑惑的表情。
在另一些实施例中,还可以采用预先训练好的表情识别模型来对用户图像进行表情类型分析。可以将所采集的用户图像输入至预先训练好的表情识别模型中,通过表情识别模型对用户图像的表情进行识别和分析,并输出用户当前的表情类型。
这里,表情识别模型可以通过以下方式来进行训练:首先,将表情数据库中的表情图像输入至表情识别模型中,通过表情识别模型中的图像识别层对表情图像进行识别,得到识别结果;然后,将识别结果输入至预设的损失模型中,通过损失模型计算识别结果与预设结果之间的相似度,得到损失结果;最后根据损失结果对图像识别层进行修正,得到修正后的表情识别模型。如此,循环往复,直至修正后的表情识别模型对表情图像进行识别后的识别结果与预设结果之间的相似度小于相似度阈值时,停止对表情识别模型的训练,得到最终训练好的表情识别模型。
在一些实施例中,还可以采用人工智能技术中的计算机视觉技术,对用户图像进行识别和表情类型分析。
步骤S402,对目标对象进行视线分析,得到视线分析结果。
这里,可以采用基于硬件设备的视线检测方法,对目标对象进行视线分析,这种视线分析方法中主要有以下三种:电磁线圈法、眼电图法和接触镜法。从这些方法的名称即可看出,方法的操作离不开相应的硬件设备,在视线的过程中,需要将设备与人眼直接接触,这些方法的优点是操作直接、过程稳定、结果精确。
在一些实施例中,还可以采用基于光学设备的视线检测方法,对目标对象进行视线分析,可以通过外界辅助光源,例如红外光源照射人眼部,然后使用特殊摄像机来自动跟踪眼睛,检测并记录从用户眼睛反射来的不同区域的红外光线,再然后,对这些人眼图像及捕捉到的反射红外光线进行图像处理,以估计人眼的视线方向,完成视线分析。这种视线分析方法主要包括:红外光电反射法、角膜反射法和红外电视法。
在一些实施例中,还可以采用人工智能技术中的计算机视觉技术,对用户图像进行视线分析。
在一些实施例中,还可以对目标对象的图像进行视线分析。例如,当表情分析结果表明用户当前为预设类型的表情时,对用户图像进行视线分析,得到视线分析结果。这里,预设类型可以是任意一种表情类型,表情类型包括但不限于:开心表情、伤心表情、疑问表情、愤怒表情、焦急表情和惊恐表情等。举例来说,预设类型的表情可以是疑问表情,则本申请实施例中可以对用户是否为疑问表情进行分析。
当确定出用户当前为预设类型的表情时,则需要对用户的视线位置进行分析,确定用户所注视的位置,进而确定用户出现预设类型的表情的原因。这里,视线分析的过程可以是:首先通过用户图像识别出用户眼睛所在的位置,确定出用户眼睛轮廓,然后根据眼睛轮廓确定出用户的视线;或者,首先通过用户图像识别出用户眼睛所在的位置,然后识别出用户的眼球,确定用户图像中眼睛的虹膜轮廓以及虹膜中心,根据虹膜轮廓和虹膜中心确定用户的视线。
步骤S403,根据视线分析结果,确定目标对象在当前界面上的注视区域。
这里,根据视线分析结果确定出用户的视线,并根据用户的视线确定用户在当前界面上的注视区域。
步骤S404,将文本信息在注视区域内的词汇确定为目标词汇。
这里,如果用户的注视区域位于当前界面上,且用户的注视区域在当前界面上对应的位置显示有文本信息,则将文本信息在注视区域内对应的词汇确定为目标词汇。
本申请实施例中,目标词汇为一个或多个,当目标词汇为多个时,目标词汇可以是一句话或一段话,即使得用户出现预设类型的表情的内容可以是一个词汇,也可以是一句话或一段话。
步骤S405,根据类型分析结果和视线分析结果中的至少之一,对目标词汇进行文本处理。
这里,根据类型分析结果和视线分析结果中的至少之一,确定对目标词汇进行文本处理的文本处理方式,文本处理方式可以是对目标词汇进行搜索、翻译和分享等任意一种处理方式。例如,如果用户的表情类型是疑问表情时,则需要对目标词汇进行搜索和查询,因此,确定出文本处理方式为搜索;如果用户的表情类型是开心表情时,则可以将用户当前看到的词汇分享给朋友,因此确定出文本处理方式为分享。本申请实施例中,在确定出文本处理方式之后,采用文本处理方式对目标词汇进行文本处理。
本申请实施例中,步骤S405可以通过以下三种方式实现:
方式一:当类型分析结果表明目标对象当前为预设类型的表情时,对目标词汇进行文本处理。这里,对应以下场景:当检测到用户当前为预设类型的表情时,例如,当检测到用户当前为眉头紧锁的疑问表情时,则说明用户在阅读的过程中对阅读内容产生疑问,因此,对用户所注视的目标词汇进行搜索。
方式二:当视线分析结果表明目标对象对目标词汇的注视时长超过时长阈值时,对目标词汇进行所述文本处理。这里,对应以下场景:当检测到用户对目标词汇的注视时长超过时长阈值时,表情用户当前正在长时间盯着目标词汇,则表明用户对目标词汇有疑问,因此,对用户长时间注视的目标词汇进行搜索。
方式三:当类型分析结果表明目标对象当前为预设类型的表情,且视线分析结果表明目标对象对目标词汇的注视时长超过时长阈值时,对目标词汇进行文本处理。这里,对应以下场景:当检测到用户当前为眉头紧锁的疑问表情时,且用户长时间注视着目标词汇,则表明用户对目标词汇有疑问,因此,对用户长时间注视的目标词汇进行搜索。
在另一些实施例中,还可以预先设置文本处理的方式,例如,可以预先设置出当确定出目标词汇之后直接对目标词汇进行搜索处理。
在一些实施例中,还可以根据目标词汇的属性信息确定对目标词汇的文本处理方式。例如,目标词汇为英文单词,则确定出对目标词汇的文本处理方式为翻译,即对目标词汇进行翻译;目标词汇为一名词,则确定出对目标词汇的文本处理方式为搜索;目标词汇为一名人名言,则确定出对目标词汇的文本处理方式为分享。
在另一些实施例中,还可以结合用户的兴趣爱好和用户习惯等来确定对目标词汇的文本处理方式。这里,可以采集用户在历史时间段内的历史文本处理参数,并根据历史文本处理方式确定用户的兴趣爱好和用户习惯,以进行用户画像描绘。在得到用户画像之后,如果确定出当前时刻的目标词汇,则结合用户画像确定目标词汇的文本处理方式。
举例来说,如果确定出用户的习惯是遇到有疑问或不懂的词汇就进行搜索,则当确定出目标词汇后,即对目标词汇进行搜索;又例如,如果确定出用户的习惯是遇到有疑问或不懂的词汇就分享给好友,如通过某即时通讯应用分享给某好友(例如父母),以请求该好友帮忙解答疑问,则当确定出目标词汇后,即对目标词汇进行分享,且优先分享的对象是用户的即时通讯应用中的该好友;如果确定出用户的习惯是在阅读外文文献时有疑问或不懂的词汇就进行翻译,则当确定出目标词汇后,即对该目标词汇进行翻译。
这里以确定用户当前是否为疑问表情为例,对本申请实施例的一种文本处理方法进行说明,当用户在终端上阅读文章时,终端上的摄像头实时采集用户图像,并根据用户图像对用户的眼睛进行识别,并监测用户的眼睛的眼球位置是否发生变化。当监测到用户的眼球长时间未发生变化时,再对用户的表情进行监测,即对用户图像进行表情分析,确定用户是否出现皱眉或者眼睛变小或者眼睛眯成一条缝隙等疑问表情,如果用户出现疑问表情时,则进一步对用户进行视线分析,确定用户所注视的位置,并将文本信息在用户注视的位置的词汇确定为待搜索的目标词汇,并对目标词汇主动进行文本处理,即对目标词汇进行搜索,确定出目标词汇的解释,得到注释,并以弹窗的形式在当前界面上显示注释。
本申请实施例提供的文本处理方法,当终端在当前界面上显示文本信息时,对采集的目标对象的图像进行表情类型分析,对目标对象进行视线分析,以确定出用户注视的目标词汇,从而根据类型分析结果对目标词汇进行文本处理,如此,实现了对用户所阅读的目标词汇的实时跟踪和自动处理,从而无需用户手动点击处理,使得用户的双手得到解放,且由于无需用户手动点击处理,因此能够缩短对词汇进行处理的时间,使阅读不被打断,阅读体验更加连贯。
在一些实施例中,文本处理系统中至少包括终端和服务器,其中,终端上具有图像采集单元,在用户通过终端阅读文本信息时,通过图像采集单元实时采集用户的用户图像,本申请实施例中,用户图像可以是用户的面部图像,下面以采集用户的面部图像为例,对本申请实施例的文本处理方法进行说明。
图5是本申请实施例提供的文本处理方法的一个可选的流程示意图,如图5所示,方法包括以下步骤:
步骤S501,终端响应于用户的点击操作,在当前界面上显示与点击操作对应的文本信息。
终端上运行有文本阅读应用,当用户想要阅读文章时,文本阅读应用的客户端响应于用户的点击操作,用户的点击操作用于触发文本阅读应用在当前界面上显示该文章对应的文本信息。
步骤S502,终端在显示文本信息的过程中,通过终端上的图像采集单元实时采集用户的面部图像。
本申请实施例中,可以仅采集用户的面部图像,对于除了面部图像之外的其他部分不采集,或者可以在采集到用户图像之后,对用户图像中包括人物面部的部分进行截取,得到面部图像。这里,可以采用图像截取模型对用户图像进行面部识别和截取。
步骤S503,在采集到面部图像之后,终端将面部图像发送给服务器。
步骤S504,服务器对面部图像进行表情类型分析,以确定用户当前的表情类型。
步骤S505,当用户当前的表情类型为预设类型时,服务器对用户图像进行视线分析,得到视线分析结果。
这里,预设类型可以是疑问表情、开心表情、伤心表情、愤怒表情、惊恐表情和焦急表情中的任意一种表情类型。
步骤S506,服务器根据视线分析结果,确定用户在当前界面上的注视区域。
步骤S507,服务器将文本信息在注视区域内的词汇确定为目标词汇。
步骤S508,服务器对目标词汇进行搜索,得到搜索结果。
步骤S509,服务器将搜索结果发送给终端。
步骤S510,终端在当前界面上以弹窗形式显示搜索结果。
本申请实施例中,可以以弹窗的形式显示搜索结果,搜索结果对应的弹窗可以位于当前界面上的任意位置。
在一些实施例中,还可以确定出当前界面上的空白位置或未显示信息的位置,将弹窗显示于空白位置或未显示信息的位置,如此,能够保证在用户阅读的过程中,显示的弹窗不会遮挡文章的内容,避免对用户的阅读连贯性造成影响。
在另一些实施例中,还可以在确定出搜索结果之后,在当前界面上确定弹窗的显示位置,例如可以根据用户的注视区域确定显示位置,其中显示位置是与注视区域所不同的位置,如此,能够保证所显示的弹窗不遮挡用户当前正在阅读的区域的内容,避免对用户的阅读连贯性造成影响。
步骤S511,服务器对目标词汇进行翻译,得到翻译结果。
步骤S512,服务器将翻译结果发送给终端。
步骤S513,终端在当前界面上以弹窗形式显示翻译结果。
在一些实施例中,还可以对目标词汇进行翻译,将翻译结果以弹窗形式显示于当前界面上。本申请实施例中,用户可以预先设置文本处理方式,即预先设置对目标词汇是进行搜索还是进行翻译,当然,还可以根据用户的历史阅读习惯确定出对目标词汇是进行搜索还是进行翻译。
本申请实施例提供的文本处理方法,当用户在终端上阅读文章时,服务器对采集的用户图像依次进行表情类型分析和视线分析,以确定出用户注视的目标词汇,从而对目标词汇进行文本处理,如此,实现了对用户所阅读的目标词汇的实时跟踪和自动处理,从而无需用户手动点击处理,使得用户的双手得到解放,且由于无需用户手动点击处理,因此能够缩短对词汇进行处理的时间,使阅读不被打断,阅读体验更加连贯。另外,可以采用不同的文本处理方式进行处理,为用户提供了更多的目标词汇自动处理方式,使得用户的阅读更加便捷和智能,提高了用户的阅读体验。
图6是本申请实施例提供的文本处理方法的一个可选的流程示意图,如图6所示,目标对象的图像为面部图像,步骤S402可以通过以下步骤实现:
步骤S601,当类型分析结果表明目标对象当前为预设类型的表情时,对面部图像进行识别,确定面部图像中眼睛所处的位置。
步骤S602,对所识别到的眼睛进行视线分析,得到视线分析结果。
请继续参照图6,步骤S403可以通过以下步骤实现:
步骤S603,根据视线分析结果,定位用户的眼睛所注视的位置。
步骤S604,判断是否能够定位用户的眼睛所注视的位置。
如果判断结果为是,则执行步骤S605;如果判断结果为否,则执行步骤S607。
步骤S605,判断用户的眼睛所注视的位置是否位于终端的当前界面上。
如果判断结果为是,则执行步骤S606;如果判断结果为否,则步骤S607。
步骤S606,将用户的眼睛所注视的位置确定为注视区域。
步骤S607,采集语音信息。
这里,如果根据视线分析结果不能定位用户的眼睛所注视的位置时,或者,如果用户的眼睛所注视的位置位于终端的当前界面之外时,则可以采集语音来辅助判断用户阅读的目标词汇,则采集语音信息,以进一步根据语音信息确定用户当前阅读的目标词汇。
步骤S608,对语音信息进行解析,得到语音词汇。
这里,采集用户在阅读文章过程中读取词汇的语音信息,并通过语音识别技术解析语音信息中的语音词汇。本申请实施例中,可以采用人工智能技术中的语音处理技术对采集到的语音进行处理,或者,采用人工智能技术中的自然语音处理技术对用户的语音信息进行识别和解析,得到与用户的语音信息对应的语音词汇。
步骤S609,当语音词汇与当前界面上所显示的文本信息中的任一词汇对应时,将语音词汇确定为目标词汇。
这里,如果用户读取的语音词汇正好是当前界面上所显示的文本信息中的词汇时,表明用户是想对该词汇进行文本处理,例如,是对该词汇有疑问。因此,将该语音词汇确定为目标词汇。
本申请实施例中,在对用户进行表情识别和视线识别的基础上,结合语音监控,从而能够对用户需要处理的目标词汇进行准确的确定,从而进一步提高用户阅读体验。
图7是本申请实施例提供的文本处理方法的一个可选的流程示意图,如图7所示,步骤S404可以通过以下步骤实现:
步骤S701,获取文本信息在注视区域内的至少两个词汇。
步骤S702,确定每一词汇的搜索频率。
这里,搜索频率可以是用户自己的搜索频率,也可以是所有用户的搜索频率。搜索频率是预设时间段内对该词汇进行搜索的次数与对全部词汇进行搜索的总次数的比值。当搜索频率越高时,表明该词汇的热度较高,或者表明该词汇在当前需要被搜索的可能性较大。
步骤S703,根据搜索频率,在至少两个词汇中选择预设数量的词汇作为目标词汇。这里,可以选择预设数量的具有较高搜索频率的词汇作为目标词汇。
在一些实施例中,步骤S703可以通过以下三种方式中的任意一种实现:
方式一:步骤S7031,按照搜索频率由大到小的顺序,对至少两个词汇进行排序,形成第一词汇序列,并在第一词汇序列中选择预设数量的词汇作为目标词汇。方式二:步骤S7032,在至少两个词汇中,将搜索频率大于阈值的词汇,确定为目标词汇。方式三:步骤S7033,获取终端在预设历史时间段内的互动参数。步骤S7034,根据互动参数训练预测模型。步骤S7035,通过预测模型,在至少两个词汇中确定目标词汇。
在上述方式三中,预测模型用于预测目标词汇,在实现的过程中,可以将至少两个词汇依次输入至预测模型中,通过预测模型确定需要进行搜索的目标词汇。本申请实施例中,预测模型是根据互动参数训练得到的,互动参数能够表征用户在预设历史时间段内的互动历史,互动参数包括但不限于以下参数:搜索信息、搜索次数、搜索频率、点击信息、评论信息、点赞信息和分享信息等。通过用户的互动参数训练的预测模型能够根据用户的喜好和习惯,确定出更加符合用户搜索习惯的目标词汇。
请继续参照图7,在一些实施例中,步骤S404还可以通过以下步骤实现:
步骤S704,获取文本信息在注视区域内的至少两个词汇、和搜索词库中的至少两个搜索词。
步骤S705,对于每一词汇,依次确定对应词汇与搜索词库中的每一搜索词之间的相似度。
步骤S706,根据每一词汇与搜索词之间的相似度,在至少两个词汇中选择预设数量的词汇作为目标词汇。
在一些实施例中,步骤S706可以通过以下步骤实现:步骤S7061,对于每一词汇,将与对应词汇具有最高相似度的搜索词,确定为对应词汇的相似搜索词。步骤S7062,确定每一词汇与对应词汇的相似搜索词之间的映射关系。步骤S7063,获取每一相似搜索词的热度值。步骤S7064,按照热度值由高到低的顺序,对与相似搜索词具有映射关系的词汇进行排序,形成第二词汇序列。步骤S7065,在第二词汇序列中,选择预设数量的词汇作为目标词汇。
在一些实施例中,步骤S405根据类型分析结果,可以确定出目标对象的表情类型为第一表情类型,其中,第一表情类型为疑问表情,则确定对目标词汇进行文本处理的文本处理方式为查询处理。图8是本申请实施例提供的文本处理方法的一个可选的流程示意图,如图8所示,步骤S405中对目标词汇进行文本处理,可以通过以下步骤实现:
步骤S801,将目标词汇确定为待查询词汇。
步骤S802,在预设搜索平台对待查询词汇进行查询,得到查询结果。
步骤S803,将查询结果显示在当前界面上。
在另一些实施例中,步骤S405根据类型分析结果,可以确定出目标对象的表情类型为第二表情类型,其中,第二表情类型为疑问表情,则确定对目标词汇进行文本处理的文本处理方式为翻译处理。请继续参照图8,步骤S405中对目标词汇进行文本处理,还可以通过以下步骤实现:
步骤S804,将目标词汇确定为待翻译词汇。
步骤S805,在预设翻译平台对待翻译词汇进行翻译,得到翻译结果。
步骤S806,将翻译结果显示在当前界面上。
在另一些实施例中,步骤S405根据类型分析结果,可以确定出目标对象的表情类型为第三表情类型,其中,第三表情类型为开心表情,则确定对目标词汇进行文本处理的文本处理方式为分享处理。请继续参照图8,步骤S405中对目标词汇进行文本处理,还可以通过以下步骤实现:
步骤S807,将目标词汇确定为待分享词汇。
步骤S808,在当前界面上显示至少一分享路径。
步骤S809,响应于用户的分享操作,通过任一分享路径对分享词汇进行分享。
本申请实施例中,对目标词汇进行文本处理可以是对目标词汇进行搜索、翻译和分享中的任意一种,且上述三种文本处理方式可以是用户预先设置的,也可以是根据目标词汇的词性所确定的。如此,为用户提供更多的功能实现,从而提高了用户的阅读体验。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。
本申请实施例提供一种文本处理方法,通过电子设备的摄像头监测用户的表情以及眼动范围,同时监测用户语音,实现综合的判断用户在阅读时所遇到的难点词汇,以在界面上自动展示难点词汇的注释。这样,用户无需手动操作,就能快速获取词汇的注释,解放了用户双手,大大提升了用户阅读文章资讯的体验。
本申请实施例中通过图像采集单元(例如摄像头)实现用户表情监测、摄像头实现眼动监测、和语音采集单元(例如麦克风)实现语音监测,综合三种监测手段所监测到的信息,来判断用户遇到的难点词汇,从而自动展示注释,用户无需手动点击,使阅读不被打断,体验更加连贯。
在产品侧,本申请实施例的产品表现为以下功能:
功能一:通过表情监测加眼动监测来判断目标词汇,并自动触发展示文章注释。
如图9所示,是本申请实施例提供的文本处理方法的一种产品交互流程图,其中,实现流程如下:如图9中的a图所示的阅读场景,用户打开一篇文章901时,电子设备90的摄像头902开启,摄像头902开始进行用户表情监测,以及用户眼球位置监测。如图9中的b图所示的监测和识别过程,在用户表情监测过程90a中,通过对采集到的连续时间段内的多个用户图像进行识别,并判断用户的表情,确定遇到难点的时机903;在用户眼球位置监测(即眼动监测)90b过程中,通过对所确定出的遇到难点时机时对应的用户图像进行眼球位置确定,以判断出用户注视的位置904。
本申请实施例中,当用户眼球停留在一个位置的时间大于设定的阈值时,同时用户脸部出现皱眉疑问的表情时,则提取用户在该位置注视的词汇,并在当前界面上自动展示此词语的注释。如图9中的c图所示的注释弹框,在当前界面上自动展示注释弹窗905。
功能二:通过语音监听辅助判断目标词汇。
本申请实施例中,当电子设备的摄像头检测眼动精确度不是很高,可能无法定位到某个确定的词汇时,则只能大致判断用户眼球的范围,那么,可以通过语音监听方式辅助确定目标词汇。
如图10所示,是本申请实施例提供的文本处理方法的另一种产品交互流程图,其中,实现流程如下:如图10中的a图所示的阅读场景,用户打开一篇文章1001时,电子设备1000的摄像头1002开启,摄像头1002开始进行用户表情监测,以及用户眼球位置监测。当电子设备的摄像头检测眼动精确度不是很高,可能无法定位到具体的某个词汇时,或者,当摄像头1002监测到用户有皱眉的表情时,即确定遇到难点的时机1003,如图10中的b图所示的监测和识别过程,包括用户表情监测过程10a和语音监听过程10b。如果同时监听到用户有用语音重复读出某个词,比如用户在看到文章1001时,嘴中有读出“洛克菲勒”这个词,即语音采集单元采集到语音信息1004,就能够比较确定的判断出用户此时是对此词汇有疑问,如图10中的c图所示的注释弹框,此时也在当前界面上自动触发注释弹窗1005。
功能三:通过高频搜索词汇辅助判断目标词汇。
本申请实施例中,当电子设备的摄像头检测眼动精确度不是很高,可能无法定位到某个确定的词汇时,只能大致判断用户眼球的范围。此时,可以先判断用户眼球注视的文章段落区域,然后根据搜索大数据筛选出此段落里的高频搜索词汇,再结合用户的画像判断用户的目标词汇。
在其他实施例中,用户还可自主选择是否开启此智能提示注释的功能。该智能提示注释的功能,用户可选择关闭,只需要在文本处理应用或者文本阅读应用的设置选项里关闭此开关就可以。
如图11所示,是本申请实施例提供的功能开关的界面图,在文本处理应用或者文本阅读应用的界面1101上具有设置选项1102,用户可点击该设置选项1102进入设置页面1103。在设置页面1103中,具有智能注释开关按钮1104,用户可通过点击该智能注释开关按钮1104,实现开启或关闭该智能提示注释的功能。
图12是本申请实施例提供的文本处理方法的一种可选的实现流程示意图,如图12所示,在技术侧,本申请实施例的技术实现会涉及到客户端121、监测模块(包括摄像头和语音采集单元)122、数据后台123三端的交互。其中,方法包括以下步骤:
步骤S1201,用户在客户端上打开文章之后,客户端进入文章详情页,用户开始阅读。
步骤S1202,监测模块中的摄像头开启,并实时监测用户的表情变化。
步骤S1203,当监测到用户出现皱眉等表示疑问的表情时,监测用户眼睛注视的位置。
步骤S1204,判断是否能够精确定位到目标词汇。
如果判断结果为是,则执行步骤S1208;如果判断结果为否,则执行步骤S1205。
步骤S1205,判断语音监听用户是否有说出某个词汇。
如果判断结果为是,则执行步骤S1208;如果判断结果为否,则执行步骤S1206。
步骤S1206,监测模块对用户自定义区域的文章内容进行语音解析,并将常用词汇解析出来。
步骤S1207,数据后台计算最高频搜索词,并将最高频搜索词确定为目标词汇。
步骤S1208,数据后台联网请求搜索目标词汇的相关解释。
步骤S1209,数据后台将搜索结果传输给客户端。
步骤S1210,在当前页面上出现目标词汇的注视弹窗。
步骤S1211,用户在客户端上继续阅读文章。
本申请实施例提供的文本处理方法,通过摄像头监测用户表情、通过摄像头进行眼动监测、通过语音采集单元进行语音监测,来综合判断用户遇到的难点词汇,从而自动展示注释。如此,用户无需手动点击选择目标词汇来获取注释,使得用户的双手在阅读文章的时候得到解放,且能够缩短用户查询的时间,使阅读不被打断,大大提升了阅读体验。
本申请实施例中,对目标词汇的注释所显示的视觉样式不做限定,所显示的位置也不做限定。在一些实施例中,除了对用户表情监测和眼动监测、语音监测之外,其他能够辅助判断目标词汇的方式和维度都在本申请实施例的保护范围之内。
下面继续说明本申请实施例提供的文本处理装置354实施为软件模块的示例性结构,在一些实施例中,如图3所示,存储在存储器350的文本处理装置354中的软件模块可以是服务器300中的文本处理装置,包括:
表情分析模块3541,用于当终端在当前界面上显示文本信息时,对采集的目标对象的图像进行表情类型分析,得到类型分析结果;视线分析模块3542,用于对所述目标对象进行视线分析,得到视线分析结果;第一确定模块3543,用于根据所述视线分析结果,确定所述目标对象在所述当前界面上的注视区域;第二确定模块3544,用于将所述文本信息在所述注视区域内的词汇确定为目标词汇;文本处理模块3545,用于根据所述类型分析结果和所述视线分析结果中的至少之一,对所述目标词汇进行文本处理。
在一些实施例中,所述文本处理模块还用于:当所述类型分析结果表明所述目标对象当前为预设类型的表情时,对所述目标词汇进行所述文本处理;或者,当所述视线分析结果表明所述目标对象对所述目标词汇的注视时长超过时长阈值时,对所述目标词汇进行所述文本处理;或者,当所述类型分析结果表明所述目标对象当前为预设类型的表情,且所述视线分析结果表明所述目标对象对所述目标词汇的注视时长超过时长阈值时,对所述目标词汇进行所述文本处理。
在一些实施例中,所述目标对象的图像为面部图像;所述视线分析模块还用于:当所述类型分析结果表明所述目标对象当前为预设类型的表情时,对所述面部图像进行识别,确定所述面部图像中眼睛所处的位置;对所识别到的眼睛进行视线分析,得到所述视线分析结果。
在一些实施例中,所述第一确定模块还用于:根据所述视线分析结果,定位所述目标对象的眼睛所注视的位置;当所述位置位于所述终端的当前界面上时,将所述位置确定为所述注视区域。
在一些实施例中,所述第二确定模块还用于:获取所述文本信息在所述注视区域内的至少两个词汇;确定每一所述词汇的搜索频率;根据所述搜索频率,在所述至少两个词汇中选择预设数量的词汇作为所述目标词汇。
在一些实施例中,所述第二确定模块还用于:按照所述搜索频率由大到小的顺序,对所述至少两个词汇进行排序,形成第一词汇序列,并在所述第一词汇序列中选择所述预设数量的词汇作为所述目标词汇;或者,在所述至少两个词汇中,将所述搜索频率大于阈值的词汇,确定为所述目标词汇。
在一些实施例中,所述第二确定模块还用于:获取所述文本信息在所述注视区域内的至少两个词汇、和搜索词库中的至少两个搜索词;对于每一所述词汇,依次确定对应词汇与所述搜索词库中的每一所述搜索词之间的相似度;根据每一所述词汇与所述搜索词之间的相似度,在所述至少两个词汇中选择预设数量的词汇作为所述目标词汇。
在一些实施例中,所述第二确定模块还用于:对于每一所述词汇,将与对应词汇具有最高相似度的所述搜索词,确定为所述对应词汇的相似搜索词;确定每一所述词汇与对应词汇的所述相似搜索词之间的映射关系;获取每一所述相似搜索词的热度值;按照所述热度值由高到低的顺序,对与所述相似搜索词具有所述映射关系的所述词汇进行排序,形成第二词汇序列;在所述第二词汇序列中,选择预设数量的词汇作为所述目标词汇。
在一些实施例中,所述装置还包括:采集模块,用于当根据视线分析结果不能定位所述目标对象的眼睛所注视的位置时,或者,当所述位置位于所述终端的当前界面之外时,采集语音信息;语音解析模块,用于对所述语音信息进行解析,得到语音词汇;第三确定模块,用于当所述语音词汇与所述当前界面上所显示的文本信息中的任一词汇对应时,将所述语音词汇确定为所述目标词汇。
在一些实施例中,所述文本处理模块还用于:当根据所述类型分析结果,确定所述目标对象的表情类型为第一表情类型时,确定对所述目标词汇进行文本处理的文本处理方式为查询处理;将所述目标词汇确定为待查询词汇;在预设搜索平台对所述待查询词汇进行查询,得到查询结果;将所述查询结果显示在所述当前界面上。
在一些实施例中,所述文本处理模块还用于:当根据所述类型分析结果,确定所述目标对象的表情类型为第二表情类型时,确定对所述目标词汇进行文本处理的文本处理方式为翻译处理;将所述目标词汇确定为待翻译词汇;在预设翻译平台对所述待翻译词汇进行翻译,得到翻译结果;将所述翻译结果显示在所述当前界面上。
在一些实施例中,所述文本处理模块还用于:当根据所述类型分析结果,确定所述目标对象的表情类型为第三表情类型时,确定对所述目标词汇进行文本处理的文本处理方式为分享处理;将所述目标词汇确定为待分享词汇;在所述当前界面上显示至少一分享路径;响应于所述用户的分享操作,通过任一所述分享路径对所述分享词汇进行分享。
需要说明的是,本申请实施例装置的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果,因此不做赘述。对于本装置实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
本申请实施例提供一种存储有可执行指令的存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的方法,例如,如图4示出的方法。
在一些实施例中,存储介质可以是计算机可读存储介质,例如,铁电存储器(FRAM,Ferromagnetic Random Access Memory)、只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read Only Memory)、带电可擦可编程只读存储器(EEPROM,Electrically Erasable Programmable Read Only Memory)、闪存、磁表面存储器、光盘、或光盘只读存储器(CD-ROM,Compact Disk-Read Only Memory)等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (15)

1.一种文本处理方法,其特征在于,包括:
当终端在当前界面上显示文本信息时,对采集的目标对象的图像进行表情类型分析,得到类型分析结果;
对所述目标对象进行视线分析,得到视线分析结果;
根据所述视线分析结果,确定所述目标对象在所述当前界面上的注视区域;
将所述文本信息在所述注视区域内的词汇确定为目标词汇;
根据所述类型分析结果和所述视线分析结果中的至少之一,对所述目标词汇进行文本处理。
2.根据权利要求1所述的方法,其特征在于,所述根据所述类型分析结果和所述视线分析结果中的至少之一,对所述目标词汇进行文本处理,包括:
当所述类型分析结果表明所述目标对象当前为预设类型的表情时,对所述目标词汇进行所述文本处理;或者,
当所述视线分析结果表明所述目标对象对所述目标词汇的注视时长超过时长阈值时,对所述目标词汇进行所述文本处理;或者,
当所述类型分析结果表明所述目标对象当前为预设类型的表情,且所述视线分析结果表明所述目标对象对所述目标词汇的注视时长超过时长阈值时,对所述目标词汇进行所述文本处理。
3.根据权利要求1所述的方法,其特征在于,所述目标对象的图像为面部图像;所述对所述目标对象进行视线分析,得到视线分析结果,包括:
当所述类型分析结果表明所述目标对象当前为预设类型的表情时,对所述面部图像进行识别,确定所述面部图像中眼睛所处的位置;
对所识别到的眼睛进行视线分析,得到所述视线分析结果。
4.根据权利要求1所述的方法,其特征在于,所述根据所述视线分析结果,确定所述目标对象在所述当前界面上的注视区域,包括:
根据所述视线分析结果,定位所述目标对象的眼睛所注视的位置;
当所述位置位于所述终端的当前界面上时,将所述位置确定为所述注视区域。
5.根据权利要求1所述的方法,其特征在于,所述将所述文本信息在所述注视区域内的词汇确定为目标词汇,包括:
获取所述文本信息在所述注视区域内的至少两个词汇;
确定每一所述词汇的搜索频率;
根据所述搜索频率,在所述至少两个词汇中选择预设数量的词汇作为所述目标词汇。
6.根据权利要求5所述的方法,其特征在于,所述根据所述搜索频率,在所述至少两个词汇中选择预设数量的词汇作为所述目标词汇,包括:
按照所述搜索频率由大到小的顺序,对所述至少两个词汇进行排序,形成第一词汇序列,并在所述第一词汇序列中选择所述预设数量的词汇作为所述目标词汇;或者,
在所述至少两个词汇中,将所述搜索频率大于阈值的词汇,确定为所述目标词汇。
7.根据权利要求1所述的方法,其特征在于,所述将所述文本信息在所述注视区域内的词汇确定为目标词汇,包括:
获取所述文本信息在所述注视区域内的至少两个词汇、和搜索词库中的至少两个搜索词;
对于每一所述词汇,依次确定对应词汇与所述搜索词库中的每一所述搜索词之间的相似度;
根据每一所述词汇与所述搜索词之间的相似度,在所述至少两个词汇中选择预设数量的词汇作为所述目标词汇。
8.根据权利要求7所述的方法,其特征在于,所述根据每一所述词汇与所述搜索词之间的相似度,在所述至少两个词汇中选择预设数量的词汇作为所述目标词汇,包括:
对于每一所述词汇,将与对应词汇具有最高相似度的所述搜索词,确定为所述对应词汇的相似搜索词;
确定每一所述词汇与对应词汇的所述相似搜索词之间的映射关系;
获取每一所述相似搜索词的热度值;
按照所述热度值由高到低的顺序,对与所述相似搜索词具有所述映射关系的所述词汇进行排序,形成第二词汇序列;
在所述第二词汇序列中,选择预设数量的词汇作为所述目标词汇。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当根据所述视线分析结果不能定位所述目标对象的眼睛所注视的位置时,或者,当所述位置位于所述终端的当前界面之外时,采集语音信息;
对所述语音信息进行解析,得到语音词汇;
当所述语音词汇与所述当前界面上所显示的文本信息中的任一词汇对应时,将所述语音词汇确定为所述目标词汇。
10.根据权利要求1至9任一项所述的方法,其特征在于,根据所述类型分析结果,对所述目标词汇进行文本处理,包括:
当根据所述类型分析结果,确定所述目标对象的表情类型为第一表情类型时,确定对所述目标词汇进行文本处理的文本处理方式为查询处理;
将所述目标词汇确定为待查询词汇;
在预设搜索平台对所述待查询词汇进行查询,得到查询结果;
将所述查询结果显示在所述当前界面上。
11.根据权利要求1至9任一项所述的方法,其特征在于,根据所述类型分析结果,对所述目标词汇进行文本处理,包括:
当根据所述类型分析结果,确定所述目标对象的表情类型为第二表情类型时,确定对所述目标词汇进行文本处理的文本处理方式为翻译处理;
将所述目标词汇确定为待翻译词汇;
在预设翻译平台对所述待翻译词汇进行翻译,得到翻译结果;
将所述翻译结果显示在所述当前界面上。
12.根据权利要求1至9任一项所述的方法,其特征在于,根据所述类型分析结果,对所述目标词汇进行文本处理,包括:
当根据所述类型分析结果,确定所述目标对象的表情类型为第三表情类型时,确定对所述目标词汇进行文本处理的文本处理方式为分享处理;
将所述目标词汇确定为待分享词汇;
在所述当前界面上显示至少一分享路径;
响应于所述用户的分享操作,通过任一所述分享路径对所述分享词汇进行分享。
13.一种文本处理装置,其特征在于,包括:
表情分析模块,用于当终端在当前界面上显示文本信息时,对采集的目标对象的图像进行表情类型分析,得到类型分析结果;
视线分析模块,用于对所述目标对象进行视线分析,得到视线分析结果;
第一确定模块,用于根据所述视线分析结果,确定所述目标对象在所述当前界面上的注视区域;
第二确定模块,用于将所述文本信息在所述注视区域内的词汇确定为目标词汇;
文本处理模块,用于根据所述类型分析结果和所述视线分析结果中的至少之一,对所述目标词汇进行文本处理。
14.一种文本处理设备,其特征在于,包括:
存储器,用于存储可执行指令;处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至12任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于引起处理器执行时,实现权利要求1至12任一项所述的方法。
CN202010512034.4A 2020-06-08 2020-06-08 文本处理方法、装置、设备及计算机可读存储介质 Pending CN111680503A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010512034.4A CN111680503A (zh) 2020-06-08 2020-06-08 文本处理方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010512034.4A CN111680503A (zh) 2020-06-08 2020-06-08 文本处理方法、装置、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN111680503A true CN111680503A (zh) 2020-09-18

Family

ID=72435142

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010512034.4A Pending CN111680503A (zh) 2020-06-08 2020-06-08 文本处理方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111680503A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112051951A (zh) * 2020-09-25 2020-12-08 北京字节跳动网络技术有限公司 一种媒体内容展示方法、媒体内容的展示确定方法及装置
CN113255306A (zh) * 2021-07-07 2021-08-13 明品云(北京)数据科技有限公司 保险合同辅助解读方法、系统、电子设备及介质
CN113467614A (zh) * 2021-06-30 2021-10-01 北京市商汤科技开发有限公司 显示界面选择方法及装置
CN116166127A (zh) * 2023-04-26 2023-05-26 深圳市人马互动科技有限公司 互动作品中机器侧内容信息的处理方法及相关装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105786804A (zh) * 2016-02-26 2016-07-20 维沃移动通信有限公司 一种翻译方法及移动终端
US20160357253A1 (en) * 2015-06-05 2016-12-08 International Business Machines Corporation Initiating actions responsive to user expressions of a user while reading media content
CN109522524A (zh) * 2018-10-29 2019-03-26 维沃移动通信有限公司 一种文本浏览方法和终端设备
CN110457699A (zh) * 2019-08-06 2019-11-15 腾讯科技(深圳)有限公司 一种停用词挖掘方法、装置、电子设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160357253A1 (en) * 2015-06-05 2016-12-08 International Business Machines Corporation Initiating actions responsive to user expressions of a user while reading media content
CN105786804A (zh) * 2016-02-26 2016-07-20 维沃移动通信有限公司 一种翻译方法及移动终端
CN109522524A (zh) * 2018-10-29 2019-03-26 维沃移动通信有限公司 一种文本浏览方法和终端设备
CN110457699A (zh) * 2019-08-06 2019-11-15 腾讯科技(深圳)有限公司 一种停用词挖掘方法、装置、电子设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112051951A (zh) * 2020-09-25 2020-12-08 北京字节跳动网络技术有限公司 一种媒体内容展示方法、媒体内容的展示确定方法及装置
CN113467614A (zh) * 2021-06-30 2021-10-01 北京市商汤科技开发有限公司 显示界面选择方法及装置
CN113255306A (zh) * 2021-07-07 2021-08-13 明品云(北京)数据科技有限公司 保险合同辅助解读方法、系统、电子设备及介质
CN113255306B (zh) * 2021-07-07 2021-11-19 明品云(北京)数据科技有限公司 保险合同辅助解读方法、系统、电子设备及介质
CN116166127A (zh) * 2023-04-26 2023-05-26 深圳市人马互动科技有限公司 互动作品中机器侧内容信息的处理方法及相关装置

Similar Documents

Publication Publication Date Title
CN111680503A (zh) 文本处理方法、装置、设备及计算机可读存储介质
Leo et al. Computer vision for assistive technologies
US20210191506A1 (en) Affective interaction systems, devices, and methods based on affective computing user interface
US11397462B2 (en) Real-time human-machine collaboration using big data driven augmented reality technologies
Pantic et al. Toward an affect-sensitive multimodal human-computer interaction
Yang et al. Benchmarking commercial emotion detection systems using realistic distortions of facial image datasets
CN110765301B (zh) 图片处理方法、装置、设备及存储介质
Song et al. Learning person-specific cognition from facial reactions for automatic personality recognition
Generosi et al. A toolkit for the automatic analysis of human behavior in HCI applications in the wild
Belissen et al. Dicta-Sign-LSF-v2: remake of a continuous French sign language dialogue corpus and a first baseline for automatic sign language processing
Grewe et al. ULearn: understanding and reacting to student frustration using deep learning, mobile vision and NLP
Roudposhti et al. A multilevel body motion-based human activity analysis methodology
McDuff et al. Do Affective Cues Validate Behavioural Metrics for Search?
Candon et al. Nonverbal human signals can help autonomous agents infer human preferences for their behavior
Li et al. MMFN: Emotion recognition by fusing touch gesture and facial expression information
Li et al. Signring: Continuous american sign language recognition using imu rings and virtual imu data
Singh et al. A robust, real-time camera-based eye gaze tracking system to analyze users’ visual attention using deep learning
Marcos et al. Emotional AI in Healthcare: a pilot architecture proposal to merge emotion recognition tools
Orton Vision based body gesture meta features for affective computing
Rathi et al. Personalized health framework for visually impaired
Annamalai et al. Facial matching and reconstruction techniques in identification of missing person using deep learning
Mukherjee et al. Personalization of industrial human–robot communication through domain adaptation based on user feedback
CN111062207A (zh) 表情图像处理方法、装置、计算机存储介质及电子设备
Avasthi et al. A Study of Multimodal Colearning, Application in Biometrics and Authentication
Qing et al. DVC-Net: a new dual-view context-aware network for emotion recognition in the wild

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200918