CN112988255B - 数据处理方法、装置及计算机可读存储介质 - Google Patents

数据处理方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN112988255B
CN112988255B CN201911212465.2A CN201911212465A CN112988255B CN 112988255 B CN112988255 B CN 112988255B CN 201911212465 A CN201911212465 A CN 201911212465A CN 112988255 B CN112988255 B CN 112988255B
Authority
CN
China
Prior art keywords
text
page
language
document
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911212465.2A
Other languages
English (en)
Other versions
CN112988255A (zh
Inventor
刘鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911212465.2A priority Critical patent/CN112988255B/zh
Publication of CN112988255A publication Critical patent/CN112988255A/zh
Application granted granted Critical
Publication of CN112988255B publication Critical patent/CN112988255B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44521Dynamic linking or loading; Link editing at or after load time, e.g. Java class loading
    • G06F9/44526Plug-ins; Add-ons

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种数据处理方法、装置及计算机可读存储介质。该方案在页面浏览程序的运行过程中,对目标插件的启动情况进行监测;当监测到所述目标插件启动时,基于预设脚本文件对所述目标插件进行脚本注入,所述预设脚本文件用于在所述目标插件中添加预设语言翻译控件;当检测到基于所述目标插件开启文档时,将所述文档的内容显示在所述页面浏览程序的页面上;基于所述预设语言翻译控件从所述页面提取待转换的文本数据;对所述文本数据进行语言翻译处理,得到译文文本,并将所述译文文本展示在所述页面上,以实现对浏览器中开启的文档进行在线翻译,提高文档浏览效率。

Description

数据处理方法、装置及计算机可读存储介质
技术领域
本发明涉及数据处理技术领域,具体涉及一种数据处理方法、装置及计算机可读存储介质。
背景技术
随着互联网的日渐普及,通过互联网浏览网页,已经成为了人们闲暇时的常规选择。而随着网页内容越来越丰富,如何提供更优化的网页内容的处理方式,成为了提供浏览服务的主要研究方向。
例如,一些浏览器提供一些插件工具,用户在浏览通过浏览器时下载的文档,可以通过插件工具直接在浏览器中打开。
在对现有技术的研究和实践过程中,本发明的发明人发现,现有技术中缺乏能够对浏览器中开启的文档进行在线翻译的方案,当文档中包含有多种语言的文本时,如果想要对文档中的内容进行翻译时,需要将到翻译网站在翻译框中输入翻译内容进而进行翻译,导致文档浏览效率低。
发明内容
本发明实施例提供一种数据处理方法、装置及计算机可读存储介质,旨在实现对浏览器中开启的文档进行在线翻译。
本发明实施例提供一种数据处理方法,包括:
在页面浏览程序的运行过程中,对目标插件的启动情况进行监测;
当监测到所述目标插件启动时,基于预设脚本文件对所述目标插件进行脚本注入,所述预设脚本文件用于在所述目标插件中添加预设语言翻译控件;
当检测到基于所述目标插件开启文档时,将所述文档的内容显示在所述页面浏览程序的页面上,并基于所述预设语言翻译控件从所述页面提取待转换的文本数据;
对所述文本数据进行语言翻译处理,得到译文文本,并将所述译文文本展示在所述页面上。
本发明实施例还提供一种数据处理装置,包括:
插件监测单元,用于在页面浏览程序的运行过程中,对目标插件的启动情况进行监测;
脚本注入单元,用于当监测到所述目标插件启动时,基于预设脚本文件对所述目标插件进行脚本注入,所述预设脚本文件用于在所述目标插件中添加预设语言翻译控件;
显示控制单元,用于当检测到基于所述目标插件开启文档时,将所述文档的内容显示在所述页面浏览程序的页面上;
文本提取单元,用于基于所述预设语言翻译控件从所述页面提取待转换的文本数据;
文本翻译单元,用于对所述文本数据进行语言翻译处理,得到译文文本,并将所述译文文本展示在所述页面上。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本发明实施例所提供的任一数据处理方法。
本发明实施例还提供一种电子设备,所述电子设备包括处理器和存储器,所述存储器有计算机程序,所述处理器通过调用所述计算机程序,执行本发明实施例所提供的任一数据处理方法。
本发明实施例提供的数据处理方案,在页面浏览程序的运行过程中,对目标插件的启动情况进行监测,当监测到该目标插件启动时,基于预设脚本文件对目标插件进行脚本注入,该预设脚本文件能够对目标插件的显示页面进行修改,在其页面上添加预设语言翻译控件,当用户基于目标插件开启文档时,将文档的内容显示在页面浏览程序上,并通过添加的预设语言翻译控件从页面提取转换的文本数据,对该文本数据进行语言翻译处理,得到译文文本,并将其显示页面上,基于上述方案,通过JS注入实现对插件显示方式的修改,从而为用户以供在线文档翻译功能,同时从在线文档中提取文本数据进行语言翻译处理,实现了对页面浏览程序中开启的文档进行在线翻译。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本发明实施例提供的数据处理方法的第一流程示意图;
图1b是本发明实施例提出的数据处理方法中文档显示页面的第一示意图;
图1c是本发明实施例提出的数据处理方法中文档显示页面的第二示意图;
图1d是本发明实施例提出的数据处理方法中文档显示页面的第三示意图;
图2是本发明实施例提供的数据处理方法的第二流程示意图;
图3a是本发明实施例提供的数据处理装置的第一种结构示意图;
图3b是本发明实施例提供的数据处理装置的第二种结构示意图;
图4是本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。本申请实施例提供的方案涉及自然语言处理的文本处理等技术,具体通过如下实施例进行说明。
本发明实施例提供一种数据处理方法,该数据处理方法的执行主体可以是本发明实施例提供的数据处理装置,或者集成了该数据处理装置的电子设备,其中该数据处理装置可以采用硬件或者软件的方式实现。其中,电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等设备。
请参阅图1a,图1a是本发明实施例提供的数据处理方法的第一流程示意图。该数据处理方法的具体流程可以如下:
101、在页面浏览程序的运行过程中,对目标插件的启动情况进行监测;
本申请中的页面浏览程序可以是网页浏览器,一种用于检索并展示万维网信息资源的应用程序,它可以运行电子设备上,为用户提供网页页面浏览的服务,例如Chrome浏览器,火狐浏览器,QQ浏览器等。
网页是一个包含HTML(HyperText Markup Language,超文本标记语言)标签的纯文本文件,其可以存放在世界某个角落的某一台计算机中,是万维网中的一“页”。网页的格式一般为HTML格式,文件扩展名为.html或.htm。网页可以通过页面浏览程序来显示。
用户在使用页面浏览程序时,可以根据需要为页面浏览程序添加插件工具,其中,本申请实施例中的插件是指“页面浏览程序插件”或“页面浏览程序拓展”,是一种遵循一定规则的应用程序接口编写出来的程序。该程序能够基于页面浏览程序提供的接口或特性为页面浏览程序增加一些除了页面浏览程序本身提供的功能之外的其他自定义的特定功能。但是插件只能运行在程序规定的系统平台下(可能同时支持多个平台),而不能脱离指定的平台单独运行。因为插件需要调用原纯净系统提供的函数或者数据。
本申请实施例中的插件可以第三方插件。例如,截图工具插件、备忘录插件、收藏工具插件等。本申请中的目标插件为文档处理插件,该插件能够实现在页面浏览程序中开启文档进行查看和编辑的功能。
一般情况下,页面浏览程序本身并不具备打开文档的功能,但是通过该文档处理插件,页面浏览程序在打开文档时,能够直接调用文档处理插件的程序,处理文档。
其中,在本申请实施例中,在页面浏览程序中调用文档处理插件打开文档,文档可以包括PDF文档,Word文档,PowerPoint文档或Excel文档等,或其它类型的电子文档。
102、当监测到目标插件启动时,基于预设脚本文件对目标插件进行脚本注入,预设脚本文件用于在目标插件中添加预设语言翻译控件。
由于本申请要实现效果是,不仅能够在浏览器中开启文档,还要能够对开启的文档进行在线翻译,不需要用户手动将文档内容复制到其他的翻译工具中进行翻译。基于此,在页面浏览程序启动之后,电子设备对页面浏览程序的中的插件的启动情况进行实时或者定时地监测,一旦监测到文档处理插件被启动,则基于预设脚本文件对文档处理插件进行JS脚本注入。其中,预设脚本文件为预先编写的JavaScript脚本,该JavaScript脚本注入到文档处理插件之后,能够对文档处理插件的展示样式进行干预,即改变插件的展示样式,本申请中主要是通过JavaScript脚本为文档处理插件增加文档翻译功能。例如,通过预设脚本文件进行脚本注入,可以实现在文档处理插件中添加预设语言翻译控件。用户可以基于该预设语言翻译控件对文档中的文本数据进行语言翻译处理。
其中,当电子设备接收到基于文档处理插件触发的开启指令时,判定文档处理插件被启动。或者,当电子设备检测到文档处理插件对应的文档处理程序运行时,判定文档处理插件被启动。
在一些实施例中,“当监测到目标插件启动时,基于预设脚本文件对目标插件进行脚本注入”可以包括:当检测到目标插件启动时,确定目标插件的安装路径;从安装路径中获取预设脚本文件并运行,以将预设脚本文件注入目标插件。
其中,脚本注入是指将通过预先编写的脚本文件对页面浏览程序中的插件的页面的显示样式进行干预。例如,在文档处理插件的显示页面上添加新的功能控件。可以理解的是,预设脚本文件可以根据需要在文档处理插件上展示的效果进行编写。
本申请实施例中,电子设备可以获取到文档处理插件的安装路径,然后将预先编写好的预设脚本文件存储到该安装路径中,当页面浏览程序启动时,也会运行该预设脚本文件,进而实现在文档处理插件的显示页面上添加预设语言翻译控件。请参阅图1b,图1b是本发明实施例提出的数据处理方法中文档显示页面的第一示意图。
103、当检测到基于目标插件开启文档时,将文档的内容显示在页面浏览程序的页面上,并基于预设语言翻译控件从页面提取待转换的文本数据。
用户在开启文档处理插件之后,通过文档处理插件开启要浏览或者编辑的文档,电子设备获取用户基于目标插件开启的文档,基于文档处理插件对文档内容进行解析,并转换为页面浏览程序能够支持的格式,将其展示在页面上。
在一些实施例中,“基于预设语言翻译控件从页面提取待转换的文本数据”可以包括:基于预设脚本文件在目标插件的页面上显示预设语言翻译控件;当检测到基于预设语言翻译控件触发的文档翻译指令时,从页面提取待转换的文本数据。
用户在浏览该文档内容的过程中,如果需要对文档内容进行翻译,则可以基于页面上的预设语言翻译控件触发文档翻译指令。当电子设备监测到文档翻译指令时,提取文档中的需要转换的文本数据。例如,对当前展示文档的页面进行分析,从页面中获取文本数据,作为语言翻译的对象。
其中,在实施例中,“从页面提取待转换的文本数据”可以包括:遍历页面的文档对象模型DOM树的节点;当从DOM树上遍历到可见文本节点时,提取可见文本节点的文本信息;根据文本信息确定待转换的文本数据。
一个页面的文档对象模型(Document Object Model,简称DOM)树,是一种处理HTML文件的标准API(Application Programming Interface,应用程序接口)。DOM提供了对整个文档的访问模型,将文档作为一个树形结构,树的每个结点表示了一个HTML标签或标签内的文本项。DOM树结构精确地描述了HTML文档中标签间的相互关联性。页面流程程序加载文档处理插件的显示页面,并在该显示页面中开启文档后,电子设备获取该页面的述DOM树,遍历该DOM树的每一个节点,获取到其中包含的可见文本节点,提取这些可见文本节点对应的文本信息,可以得到文档的内容,进而将这些文本信息作为待转换的文本数据。或者,从全部的文本数据中选择属于需要翻译的语言类型的文本数据,作为待转换的文本数据。
在一些实施例中,从文档中提取待转换的文本数据之后,该方法还包括:对文本数据进行分析,以确定文本数据包含的语言类型;当文本数据包含有多种语言类型时,计算每一种语言类型的文本数据在全部的文本数据中所占的比值;根据多个比值确定目标语言,并基于目标语言执行对文本数据进行语言翻译处理,得到译文文本。
由于开启的文档中可能包含有多种语言类型的文本数据,例如,文档内容中既有中文,又有英文。此时,需要根据文档内容确定是将中文翻译为英文,还是将英文翻译为中文。该实施例中,电子设备在获取到文本数据之后,可以对文本数据分析,以识别除文本数据中包含的语言类型的种类。其中,语言类型是指语种,可以包括多种类型,例如,中文、英文、日文、德文等等。电子设备计算每一种语言类型的文本数据的字数在文档中全部文本数据的字数中的比值,将比值最低的语言作为目标语言,将文档除了目标语言之外的其他类型的语言均翻译为目标语言。例如,电子设备通过计算,检测到文档中有80%的文本为中文,有20%的文本为英文,则对80%的文本数据进行中译英处理,得到英文版的译文文本。
或者,在其他实施例中,基于预设语言翻译控件从页面提取待转换的文本数据可以包括:基于预设脚本文件在目标插件的页面上显示预设语言翻译控件和预设语言选择控件;当检测到基于预设语言选择控件触发的语言选择指令时,将语言选择指令对应的语言作为目标语言;当检测到基于预设语言翻译控件触发的文档翻译指令时,从文档中提取待转换的文本数据。对文本数据进行语言翻译处理,得到译文文本,包括:对文本数据进行语言翻译处理,得到目标语言版本的译文文本。
该实施例中,电子设备提供将文本翻译为多种语言中的任意一种的功能。通过预设脚本文件进行脚本注入时,除了实现在目标插件的页面上显示预设语言翻译控件之外,还显示预设语言选择控件。请参阅图1c,图1c是本发明实施例提出的数据处理方法中文档显示页面的第二示意图。用户可以基于该预设语言选择控件触发语言选择指令,通过语言选择选择一种语言作为原始语言,同时选择另外一种语言作为目标语言。可以理解的是,如果文本数据中只有一种语言类型,则电子设备可以自动识别并确定原始语言并显示在选择框中,不需要用户手动选择。
在一些实施例中,当检测到基于目标插件开启文档时,判断启动的文档内容是否为空;若启动的文档内容不为空,则执行基于预设语言翻译控件从页面提取待转换的文本数据。
该实施例中,在用户启动文档后,电子设备先检测启动的文档是否为一个空文档,如果是一个空文档,则开启该文档即可,无需在页面上显示预设语言翻译控件。反之,如果不是空文档,则在页面上显示预设语言翻译控件。
104、对文本数据进行语言翻译处理,得到译文文本,并将译文文本展示在页面上。
在提取到文本数据之后,接下来对文本数据进行语言翻译处理。例如,电子设备的默认翻译模式为中译英。则识别出文本数据中的中文文本,将其翻译为英文,将原始的中文文本和英文本的译文文本显示在页面上。或者,电子设备根据用户选择的原始语言和目标语言,获取文本数据中属于原始语言的文本数据,将其翻译为目标语言版本的译文文本,比如,文档中提取出的文本数据中包含有中文和英文,用户选择英文为原始语言,中文为目标语言,则电子设备将英文部分的文本数据翻译为中文文本。请参阅图1d,图1d是本发明实施例提出的数据处理方法中文档显示页面的第三示意图。电子设备在获取到译文文本后,将原始文档内容和翻译后的译文文本同时显示在页面上。比如,电子设备通过文档处理插件将译文文本添加至原始文档中,然后以分栏显示的方式将原始文档内容和翻译后的译文文本显示在页面的左右两侧。可以理解的是,在页面显示译文文本时,将译文文本按照与原始文档对应的结构进行显示。
在一些实施例中,基于目标语言执行对文本数据进行语言翻译处理,得到译文文本,包括:基于目标语言和文本数据生成文本翻译请求,将文本翻译请求发送至服务器;接收服务器基于文本翻译请求返回的译文文本。
电子设备在确定目标语言后,基于目标语言和需要翻译的文本数据生成文本翻译请求,将该请求发送到服务器,服务器在接收到该文本翻译请求后,获取文本翻译请求携带的文本数据,调用与目标语言对应的翻译接口对文本数据进行翻译处理,得到译文文本,并将译文文本发送至电子设备。
或者,在其他实施例中,电子设备在获取到文本数据后,调用预设文本转换接口,对文本数据进行语言翻译处理,得到译文文本,其中,预设文本转换接口由电子设备手上安装的翻译程序提供。通过这种方式,电子设备在没有联网的状态下,也能够基于浏览器实现对文档的在线翻译。
具体实施时,本申请不受所描述的各个步骤的执行顺序的限制,在不产生冲突的情况下,某些步骤还可以采用其它顺序进行或者同时进行。
由上,本发明实施例提出的数据处理方法,在页面浏览程序的运行过程中,对目标插件的启动情况进行监测,当监测到该目标插件启动时,基于预设脚本文件对目标插件进行脚本注入,该预设脚本文件能够对目标插件的显示页面进行修改,在其页面上添加预设语言翻译控件,当用户基于目标插件开启文档时,将文档的内容显示在页面浏览程序上,并通过添加的预设语言翻译控件从页面提取转换的文本数据,对该文本数据进行语言翻译处理,得到译文文本,并将其显示页面上,基于上述方案,通过JS注入实现对插件显示方式的修改,从而为用户以供在线文档翻译功能,同时从在线文档中提取文本数据进行语言翻译处理,实现了对页面浏览程序中开启的文档进行在线翻译。
在一些实施例中,基于预设语言翻译控件对文本数据进行语言翻译处理,得到译文文本,并将译文文本展示在页面上之后,该方法还可以还包括:启动节点变动观察器对网页的DOM树的节点进行监测;当监测到DOM树上有变化或者新增的文本节点时,提取变化或者新增的文本节点的文本信息,作为增量文本;对增量文本进行语言翻译处理,得到增量译文文本,并基于增量译文文本更新译文文本在页面上的显示。
由于文档处理插件还为用户提供了文档在线编辑功能,如果用户在浏览文档的同时对文档进行了修改处理,那么电子设备可以基于该实施例的方案获取到修改部分的数据,重新翻译后显示。其中,对于页面浏览程序的页面来说,都有对应的DOM树,在将译文文本展示在页面上之后,电子设备调用节点变动观察器接口,以启动节点变动观察器(MutationObserver)对网页的DOM树的节点进行实时监测,当监测到DOM树上有变化或者新增的文本节点时,判定用户对文档进行了修改,提取变化或者新增的文本节点的文本信息,作为增量文本,再重新对增量文本进行翻译处理,得到增量译文文本,基于该增量译文文本修改页面中显示的译文文本。
可以理解的是,该实施例中的文档修改是指对文档内容作出了变更或者增加。对于删除修改,则电子设备通过节点变动观察器检测到DOM树的节点有减少、且减少的节点为可见文本节点时,确定删除的节点对应的可见文本节点对应的文本数据,将这些文本对应的译文从译文文本中删除,并更新修改后的译文文本在页面上的显示。
在一些实施例中,遍历网页的文档对象模型DOM树的节点,与根据文本信息确定待转换的文本数据之间,还包括:当从DOM树上遍历到图片节点时,提取图片节点对应的图片数据,并从图片数据中提取文本信息;当从DOM树上遍历到音频节点时,提取音频节点对应的音频数据,并将音频数据转换为文本信息。
该实施例中除了提取文档中的纯文本信息之后,还可以提取图片信息和/或音频信息,将这些图片信息和/或音频信息转换为文本信息,其中,图片节点为页面中包含有图片信息的DOM树节点,音频节点为页面中包含有音频信息的DOM树节点。对于提取到的音频信息,进行语音识别,将其转换为文本数据,对于提取到的图片信息,判断其中是否包含有文字,若有,则识别图片信息中的文本数据,通过这种方式,例如,用户如果浏览的是PPT文档,文档中的图片和音频中的文字也会被翻译为用户需要的语言,方便用户浏览。
其中,图像中文字的识别以及音频转换为文字的服务,可以通过部署在本地的程序实现,也可以通过调用服务器提供的接口实现。
根据前面实施例所描述的方法,以下将举例作进一步详细说明。
请参阅图2,图2是本发明实施例提供的数据处理方法的第二流程示意图。
方法包括:
201、在页面浏览程序的运行过程中,对目标插件的启动情况进行监测。
在页面浏览程序启动之后,电子设备对页面浏览程序的中的插件的启动情况进行实时或者定时地监测,一旦监测到文档处理插件被启动,则基于预设脚本文件对文档处理插件进行JS脚本注入。
202、当检测到目标插件启动时,确定目标插件的安装路径。
203、从安装路径中获取预设脚本文件并运行,以将预设脚本文件注入目标插件。
电子设备可以获取到文档处理插件的安装路径,然后将预先编写好的预设脚本文件存储到该安装路径中。在文档处理插件启动后,直接从安装路径中运行该预设脚本文件,以实现在文档处理插件的显示页面上添加预设语言翻译控件。
204、当检测到基于目标插件开启文档时,基于预设脚本文件在目标插件的页面上显示预设语言翻译控件。
本申请实施例中,在页面浏览程序中调用文档处理插件打开文档,并对文档内容进行解析,并转换为页面浏览程序能够支持的格式,将其展示在页面上。同时在页面上显示预设语言翻译控件。
205、当检测到基于预设语言翻译控件触发的文档翻译指令时,遍历页面的文档对象模型DOM树的节点。
206、当从DOM树上遍历到可见文本节点时,提取可见文本节点的文本数据。
用户在浏览该文档内容的过程中,如果需要对文档内容进行翻译,则可以基于页面上的预设语言翻译控件触发文档翻译指令。当电子设备监测到文档翻译指令时,提取文档中的需要转换的文本数据。例如,电子设备获取该页面的述DOM树,遍历该DOM树的每一个节点,获取到其中包含的可见文本节点,提取这些可见文本节点对应的文本数据,作为待转换的文本数据。
207、对文本数据进行分析,以确定文本数据包含的语言类型。
208、当文本数据包含有多种语言类型时,计算每一种语言类型的文本数据在全部的文本数据中所占的比值。
209、根据多个比值确定目标语言,并基于目标语言对文本数据进行语言翻译处理,得到译文文本,将译文文本展示在页面上。
当文档内容中包含有多种语言类型的文本数据时,例如,文档内容中既有中文,又有英文。需要根据文档内容确定是将中文翻译为英文,还是将英文翻译为中文。电子设备计算每一种语言类型的文本数据的字数在文档中全部文本数据的字数中的比值,将比值最低的语言作为目标语言,将文档除了目标语言之外的其他类型的语言均翻译为目标语言。电子设备在获取到译文文本后,将原始文档内容和翻译后的译文文本同时显示在页面上,以供用户浏览。
由上可知,本发明实施例提出的数据处理方法,在用户开启页面浏览程序并使用文档处理插件打开文档时,通过JS注入干预该插件的展示页面,为用户提供文档翻译的功能控件,并通过DOM树结构分析,获取文档中的文本数据,对文本数据进行语言翻译处理,实现了对页面浏览程序中开启的文档进行在线翻译。
为了实施以上方法,本发明实施例还提供一种数据处理装置,该数据处理装置具体可以集成在终端设备如手机、平板电脑等设备中。
例如,请参阅图3a,图3a是本发明实施例提供的数据处理装置的第一种结构示意图。该数据处理装置可以包括插件监测单元301、脚本注入单元302、显示控制单元303、文本提取单元304和文本翻译单元305,如下:
插件监测单元301,用于在页面浏览程序的运行过程中,对目标插件的启动情况进行监测;
脚本注入单元302,用于当监测到所述目标插件启动时,基于预设脚本文件对所述目标插件进行脚本注入,所述预设脚本文件用于在所述目标插件中添加预设语言翻译控件;
显示控制单元303,用于当检测到基于所述目标插件开启文档时,将所述文档的内容显示在所述页面浏览程序的页面上;
文本提取单元304,用于基于所述预设语言翻译控件从所述页面提取待转换的文本数据;
文本翻译单元305,用于对所述文本数据进行语言翻译处理,得到译文文本,并将所述译文文本展示在所述页面上。
在一些实施例中,脚本注入单元302还用于:当检测到目标插件启动时,确定所述目标插件的安装路径;从所述安装路径中获取预设脚本文件并运行,以将所述预设脚本文件注入所述目标插件。
在一些实施例中,文本提取单元304还用于:基于所述预设脚本文件在所述目标插件的页面上显示所述预设语言翻译控件;当检测到基于所述预设语言翻译控件触发的文档翻译指令时,从所述页面提取待转换的文本数据。
在一些实施例中,文本提取单元304还用于:基于所述预设脚本文件在所述目标插件的页面上显示预设语言翻译控件和预设语言选择控件;当检测到基于所述预设语言选择控件触发的语言选择指令时,将所述语言选择指令对应的语言作为目标语言;当检测到基于所述预设语言翻译控件触发的文档翻译指令时,从所述文档中提取待转换的文本数据;
文本翻译单元305还用于:对所述文本数据进行语言翻译处理,得到所述目标语言版本的译文文本。
在一些实施例中,文本提取单元304还用于:遍历所述页面的文档对象模型DOM树的节点;当从所述DOM树上遍历到可见文本节点时,提取所述可见文本节点的文本信息;根据所述文本信息确定待转换的文本数据。
在一些实施例中,文本翻译单元305还用于:对所述文本数据进行分析,以确定所述文本数据包含的语言类型;当所述文本数据包含有多种语言类型时,计算每一种语言类型的文本数据在全部的文本数据中所占的比值;根据所述多个比值确定目标语言,并基于所述目标语言执行对所述文本数据进行语言翻译处理,得到译文文本。
在一些实施例中,文本翻译单元305还用于:基于所述目标语言和所述文本数据生成文本翻译请求,将所述文本翻译请求发送至服务器;接收所述服务器基于所述文本翻译请求返回的译文文本。
请参阅图3b,图3b是本发明实施例提供的数据处理装置的第二种结构示意图。在一些实施例中,该数据处理装置还可以包括页面更新单元306,页面更新单元306用于:启动节点变动观察器对所述网页的DOM树的节点进行监测;当监测到所述DOM树上有变化或者新增的文本节点时,提取变化或者新增的文本节点的文本信息,作为增量文本;对所述增量文本进行语言翻译处理,得到增量译文文本,并基于所述增量译文文本更新所述译文文本在所述页面上的显示。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
应当说明的是,本发明实施例提供的数据处理装置与上文实施例中的数据处理方法属于同一构思,在数据处理装置上可以运行数据处理方法实施例中提供的任一方法,其具体实现过程详见数据处理方法实施例,此处不再赘述。
本发明实施例提出的数据处理装置,在页面浏览程序的运行过程中,对目标插件的启动情况进行监测,当监测到该目标插件启动时,基于预设脚本文件对目标插件进行脚本注入,该预设脚本文件能够对目标插件的显示页面进行修改,在其页面上添加预设语言翻译控件,当用户基于目标插件开启文档时,将文档的内容显示在页面浏览程序上,并通过添加的预设语言翻译控件从页面提取转换的文本数据,对该文本数据进行语言翻译处理,得到译文文本,并将其显示页面上,基于上述方案,通过JS注入实现对插件显示方式的修改,从而为用户以供在线文档翻译功能,同时从在线文档中提取文本数据进行语言翻译处理,实现了对页面浏览程序中开启的文档进行在线翻译。
本发明实施例还提供一种电子设备,请参阅图4,图4是本发明实施例提供的电子设备的结构示意图。具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图4中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
电子设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
在页面浏览程序的运行过程中,对目标插件的启动情况进行监测;
当监测到所述目标插件启动时,基于预设脚本文件对所述目标插件进行脚本注入,所述预设脚本文件用于在所述目标插件中添加预设语言翻译控件;
当检测到基于所述目标插件开启文档时,将所述文档的内容显示在所述页面浏览程序的页面上,并基于所述预设语言翻译控件从所述页面提取待转换的文本数据;
对所述文本数据进行语言翻译处理,得到译文文本,并将所述译文文本展示在所述页面上。
在一些实施例中,处理器401运行存储在存储器402中的应用程序,还可以实现如下功能:
当检测到目标插件启动时,确定所述目标插件的安装路径;
从所述安装路径中获取预设脚本文件并运行,以将所述预设脚本文件注入所述目标插件。
在一些实施例中,处理器401运行存储在存储器402中的应用程序,还可以实现如下功能:
基于所述预设脚本文件在所述目标插件的页面上显示所述预设语言翻译控件;
当检测到基于所述预设语言翻译控件触发的文档翻译指令时,从所述页面提取待转换的文本数据。
在一些实施例中,处理器401运行存储在存储器402中的应用程序,还可以实现如下功能:
基于所述预设脚本文件在所述目标插件的页面上显示预设语言翻译控件和预设语言选择控件;
当检测到基于所述预设语言选择控件触发的语言选择指令时,将所述语言选择指令对应的语言作为目标语言;
当检测到基于所述预设语言翻译控件触发的文档翻译指令时,从所述文档中提取待转换的文本数据;
对所述文本数据进行语言翻译处理,得到所述目标语言版本的译文文本。
在一些实施例中,处理器401运行存储在存储器402中的应用程序,还可以实现如下功能:
遍历所述页面的文档对象模型DOM树的节点;
当从所述DOM树上遍历到可见文本节点时,提取所述可见文本节点的文本信息;
根据所述文本信息确定待转换的文本数据。
在一些实施例中,处理器401运行存储在存储器402中的应用程序,还可以实现如下功能:
对所述文本数据进行分析,以确定所述文本数据包含的语言类型;
当所述文本数据包含有多种语言类型时,计算每一种语言类型的文本数据在全部的文本数据中所占的比值;
根据所述多个比值确定目标语言,并基于所述目标语言执行对所述文本数据进行语言翻译处理,得到译文文本。
在一些实施例中,处理器401运行存储在存储器402中的应用程序,还可以实现如下功能:
基于所述目标语言和所述文本数据生成文本翻译请求,将所述文本翻译请求发送至服务器;
接收所述服务器基于所述文本翻译请求返回的译文文本。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
由上所述,本发明实施例提出的电子设备,在页面浏览程序的运行过程中,对目标插件的启动情况进行监测,当监测到该目标插件启动时,基于预设脚本文件对目标插件进行脚本注入,该预设脚本文件能够对目标插件的显示页面进行修改,在其页面上添加预设语言翻译控件,当用户基于目标插件开启文档时,将文档的内容显示在页面浏览程序上,并通过添加的预设语言翻译控件从页面提取转换的文本数据,对该文本数据进行语言翻译处理,得到译文文本,并将其显示页面上,基于上述方案,通过JS注入实现对插件显示方式的修改,从而为用户以供在线文档翻译功能,同时从在线文档中提取文本数据进行语言翻译处理,实现了对页面浏览程序中开启的文档进行在线翻译。
为此,本发明实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种数据处理方法中。例如,该指令可以执行:
在页面浏览程序的运行过程中,对目标插件的启动情况进行监测;
当监测到所述目标插件启动时,基于预设脚本文件对所述目标插件进行脚本注入,所述预设脚本文件用于在所述目标插件中添加预设语言翻译控件;
当检测到基于所述目标插件开启文档时,将所述文档的内容显示在所述页面浏览程序的页面上,并基于所述预设语言翻译控件从所述页面提取待转换的文本数据;
对所述文本数据进行语言翻译处理,得到译文文本,并将所述译文文本展示在所述页面上。
上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请实施例所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请实施例各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
以上对本申请实施例所提供的技术方案进行了详细介绍,本申请实施例中应用了具体个例对本申请实施例的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请实施例的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请实施例的限制。

Claims (9)

1.一种数据处理方法,其特征在于,包括:
在页面浏览程序的运行过程中,对目标插件的启动情况进行监测;
当监测到所述目标插件启动时,基于预设脚本文件对所述目标插件进行脚本注入,所述预设脚本文件用于在所述目标插件中添加预设语言翻译控件;
当检测到基于所述目标插件开启文档时,将所述文档的内容显示在所述页面浏览程序的页面上,并基于所述预设语言翻译控件从所述页面提取待转换的文本数据;
对所述文本数据进行语言翻译处理,得到译文文本,并将所述译文文本展示在所述页面上;
启动节点变动观察器对网页的DOM树的节点进行监测;
当监测到所述DOM树上有变化或者新增的文本节点时,提取变化或者新增的文本节点的文本信息,作为增量文本;
对所述增量文本进行语言翻译处理,得到增量译文文本,并基于所述增量译文文本更新所述译文文本在所述页面上的显示。
2.如权利要求1所述的数据处理方法,其特征在于,所述当监测到所述目标插件启动时,基于预设脚本文件对所述目标插件进行脚本注入,包括:
当检测到目标插件启动时,确定所述目标插件的安装路径;
从所述安装路径中获取预设脚本文件并运行,以将所述预设脚本文件注入所述目标插件。
3.如权利要求1所述的数据处理方法,其特征在于,所述基于所述预设语言翻译控件从所述页面提取待转换的文本数据,包括:
基于所述预设脚本文件在所述目标插件的页面上显示所述预设语言翻译控件;
当检测到基于所述预设语言翻译控件触发的文档翻译指令时,从所述页面提取待转换的文本数据。
4.如权利要求1所述的数据处理方法,其特征在于,所述基于所述预设语言翻译控件从所述页面提取待转换的文本数据,包括:
基于所述预设脚本文件在所述目标插件的页面上显示预设语言翻译控件和预设语言选择控件;
当检测到基于所述预设语言选择控件触发的语言选择指令时,将所述语言选择指令对应的语言作为目标语言;
当检测到基于所述预设语言翻译控件触发的文档翻译指令时,从所述文档中提取待转换的文本数据;
所述对所述文本数据进行语言翻译处理,得到译文文本,包括:
对所述文本数据进行语言翻译处理,得到所述目标语言版本的译文文本。
5.如权利要求3或4所述的数据处理方法,其特征在于,所述从所述页面提取待转换的文本数据,包括:
遍历所述页面的文档对象模型DOM树的节点;
当从所述DOM树上遍历到可见文本节点时,提取所述可见文本节点的文本信息;
根据所述文本信息确定待转换的文本数据。
6.如权利要求3或4所述的数据处理方法,其特征在于,所述从所述文档中提取待转换的文本数据之后,还包括:
对所述文本数据进行分析,以确定所述文本数据包含的语言类型;
当所述文本数据包含有多种语言类型时,计算每一种语言类型的文本数据在全部的文本数据中所占的比值;
根据多个比值确定目标语言,并基于所述目标语言执行对所述文本数据进行语言翻译处理,得到译文文本。
7.如权利要求6所述的数据处理方法,其特征在于,所述基于所述目标语言执行对所述文本数据进行语言翻译处理,得到译文文本,包括:
基于所述目标语言和所述文本数据生成文本翻译请求,将所述文本翻译请求发送至服务器;
接收所述服务器基于所述文本翻译请求返回的译文文本。
8.一种数据处理装置,其特征在于,包括:
插件监测单元,用于在页面浏览程序的运行过程中,对目标插件的启动情况进行监测;
脚本注入单元,用于当监测到所述目标插件启动时,基于预设脚本文件对所述目标插件进行脚本注入,所述预设脚本文件用于在所述目标插件中添加预设语言翻译控件;
显示控制单元,用于当检测到基于所述目标插件开启文档时,将所述文档的内容显示在所述页面浏览程序的页面上;
文本提取单元,用于基于所述预设语言翻译控件从所述页面提取待转换的文本数据;
文本翻译单元,用于对所述文本数据进行语言翻译处理,得到译文文本,并将所述译文文本展示在所述页面上;
页面更新单元,用于启动节点变动观察器对网页的DOM树的节点进行监测;当监测到所述DOM树上有变化或者新增的文本节点时,提取变化或者新增的文本节点的文本信息,作为增量文本;对所述增量文本进行语言翻译处理,得到增量译文文本,并基于所述增量译文文本更新所述译文文本在所述页面上的显示。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至7任一项所述的数据处理方法。
CN201911212465.2A 2019-12-02 2019-12-02 数据处理方法、装置及计算机可读存储介质 Active CN112988255B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911212465.2A CN112988255B (zh) 2019-12-02 2019-12-02 数据处理方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911212465.2A CN112988255B (zh) 2019-12-02 2019-12-02 数据处理方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112988255A CN112988255A (zh) 2021-06-18
CN112988255B true CN112988255B (zh) 2024-04-30

Family

ID=76331007

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911212465.2A Active CN112988255B (zh) 2019-12-02 2019-12-02 数据处理方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112988255B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115983291A (zh) * 2021-10-15 2023-04-18 华为技术有限公司 网页内容翻译方法、计算机设备、存储介质及程序产品

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462074A (zh) * 2014-12-26 2015-03-25 北京奇虎科技有限公司 一种进行网页数据翻译的方法、装置和浏览器客户端
CN108595445A (zh) * 2018-04-23 2018-09-28 Oppo广东移动通信有限公司 翻译方法、装置及终端

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462074A (zh) * 2014-12-26 2015-03-25 北京奇虎科技有限公司 一种进行网页数据翻译的方法、装置和浏览器客户端
CN108595445A (zh) * 2018-04-23 2018-09-28 Oppo广东移动通信有限公司 翻译方法、装置及终端

Also Published As

Publication number Publication date
CN112988255A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
US10120954B2 (en) Transformation and presentation of on-demand native application crawling results
KR100490734B1 (ko) 주석기반 문서 자동 생성장치 및 방법
EP3455695A1 (en) Page component dynamic layout
US9304990B2 (en) Translation of text into multiple languages
CN105786455B (zh) 一种数据处理方法、装置及终端
RU2595524C2 (ru) Устройство и способ обработки содержимого веб-ресурса в браузере
CN103678704A (zh) 一种基于图片信息的识图方法、系统、设备及装置
KR20150032164A (ko) 심층적 문서 분석에 기초한 능동적 지식 안내
CN110390063A (zh) 一种数据解析方法、装置、介质和电子设备
CN113704590A (zh) 网页数据获取方法、装置、电子设备及存储介质
US10331800B2 (en) Search results modulator
CN112988255B (zh) 数据处理方法、装置及计算机可读存储介质
US11544467B2 (en) Systems and methods for identification of repetitive language in document using linguistic analysis and correction thereof
CN110647327B (zh) 基于卡片的用户界面动态控制的方法和装置
CN109408057B (zh) 自动生成代码的方法、装置、介质和计算设备
CN108304169B (zh) 针对html5应用的实现方法、装置和设备
CN115202643A (zh) 图标资源的删除方法、装置、电子设备及介质
CN114385946A (zh) 数据结构的编辑方法、装置、电子设备以及存储介质
CN113268232B (zh) 一种页面皮肤生成方法、装置和计算机可读存储介质
CN111176982B (zh) 一种测试界面生成方法和装置
CN113934959A (zh) 一种程序预览方法、装置、计算机设备和存储介质
CN112632436A (zh) 一种网页显示方法、装置、电子设备及存储介质
CN112417827A (zh) 在线文档编辑展示的方法、装置、电子设备及存储介质
Zhou et al. Optimizing user interaction for Web-based mobile tasks
CN113642295B (zh) 页面排版方法、装置及计算机程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant