CN116522913A - 中文阅读辅助方法、装置及存储介质 - Google Patents
中文阅读辅助方法、装置及存储介质 Download PDFInfo
- Publication number
- CN116522913A CN116522913A CN202210083607.5A CN202210083607A CN116522913A CN 116522913 A CN116522913 A CN 116522913A CN 202210083607 A CN202210083607 A CN 202210083607A CN 116522913 A CN116522913 A CN 116522913A
- Authority
- CN
- China
- Prior art keywords
- word
- auxiliary
- current
- reading
- chinese
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000011218 segmentation Effects 0.000 claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims description 46
- 238000004590 computer program Methods 0.000 claims description 10
- 230000004044 response Effects 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000590419 Polygonia interrogationis Species 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种中文阅读辅助方法、装置及存储介质,所述方法包括:响应于辅助阅读指令,获取待辅助阅读的中文文本信息;对所述中文文本信息进行词语切分,得到词语表单;基于所述词语表单进行语义连接度分析,得到关键度评分;响应于所述辅助阅读指令中指示的辅助类型,在所述词语表单和/或关键度评分中确定目标辅助信息,并按照预设规则对所述目标辅助信息进行辅助提示,能够基于待辅助阅读的中文文本信息,按照辅助阅读指令自动进行辅助提示,降低人工参与度,提高辅助阅读的普适性。
Description
技术领域
本公开一般涉及语义分析技术领域,具体涉及一种中文阅读辅助方法、装置及存储介质。
背景技术
随着电子文本(电子书文本、网页文本、社交软件文本等)的普及,电子文本的视觉辅助功能逐渐增多,如调节字体大小、行间距和背景色等。这些设置的目的是为了让读者的阅读更舒适,从而提高阅读体验和效率。
这些设置只是试图在初级视觉输入层面满足读者需求。然而,读者阅读时有更高的认知需求和特点,例如,在阅读电子文档是,为了高效获取有用信息,读者常常会快速搜索文本中的信息,例如关键句,相关技术中关键句通常是由后台人工标注的,大大增加了文本处理的人工成本,不具有普适性。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种中文阅读辅助方法、装置及存储介质,能够基于待辅助阅读的中文文本信息,按照辅助阅读指令自动进行辅助提示,降低人工参与度,提高辅助阅读的普适性。
第一方面,本申请实施例提供了一种中文阅读辅助方法,包括:
响应于辅助阅读指令,获取待辅助阅读的中文文本信息;
对所述中文文本信息进行词语切分,得到词语表单;
基于所述词语表单进行语义连接度分析,得到关键度评分;
响应于所述辅助阅读指令中指示的辅助类型,在所述词语表单和/或关键度评分中确定目标辅助信息,并按照预设规则对所述目标辅助信息进行辅助提示。
在一些实施例中,所述对所述中文文本信息进行词语切分,得到词语表单,包括:
将所述中文文本信息转换为字符串变量;
针对所述字符串变量中的每个字,从所述字符串变量中提取当前字对应的组块;
将所述组块与预设语料库进行匹配,确定所述当前字对应的当前词语,并从所述语料库中提取所述当前词语对应的属性信息生成所述当前词语对应的词语表单。
在一些实施例中,所述组块包括预设长度范围,所述方法包括:
按照所述预设长度范围从大到小依次获取多个所述当前字对应的组块;
按照所述组块长度从大到小依次与所述预设语料库进行匹配;
在识别到所述组块与所述预设语料库中任一候选词语匹配时,确定所述候选词语为所述组块对应的所述当前词语,并停止对所述当前字的匹配操作。
在一些实施例中,所述关键度评分包括当前词语对应的关键度评分,所述基于所述词语表单进行语义连接度分析,得到关键度评分,包括:
基于所述词语表单,构建语义连接矩阵,其中,所述语义连接矩阵根据是否具有相邻关系确定元素值;
针对所述词语表单中任一当前词语,根据所述语义连接矩阵确定所述当前词语对应的关键度评分。
在一些实施例中,所述基于所述词语表单,构建语义连接矩阵,包括:
基于所述词语表单构建N阶初始矩阵;
针对任一所述当前词语,将在所述字符串变量中位于所述当前词语前一位置的词语按照第一规则进行赋值,其他词语则按照第二规则进行赋值,得到所述语义连接矩阵。
在一些实施例中,所述根据所述语义连接矩阵确定所述词语对应的关键度评分,包括:
针对任一所述当前词语,将其在所述语义连接矩阵中对应的值进行求和,得到所述当前词语对应的所述关键度评分。
在一些实施例中,所述关键度评分包括当前句对应的关键度评分,所述方法还包括:
针对每个当前句子,基于所述当前词语对应的关键度评分确定每个句子中包含的关键词语;
获取所述当前句子中包含的所述关键词语的数量,将所述关键词语的数量作为所述当前句子对应的关键度评分。
在一些实施例中,所述辅助阅读指令中指示的辅助类型包括词性、关键词和关键句中的至少一种。
第二方面,本申请实施例提供了一种中文阅读辅助装置,包括:
获取模块,用于基于辅助阅读指令,获取待辅助阅读的中文文本信息;
第一分析模块,用于对所述中文文本信息进行词语切分,得到词语表单;
第二分析模块,用于基于所述词语表单进行语义连接度分析,得到关键度评分;
辅助模块,用于基于所述辅助阅读指令中指示的辅助类型,在所述词语表单和/或关键度评分中确定目标辅助信息,并按照预设规则对所述目标辅助信息进行辅助提示。
第三方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例描述的方法。
本申请提出的中文阅读辅助方法、装置和存储介质,响应于辅助阅读指令,获取待辅助阅读的中文文本信息,对中文文本信息进行词语切分得到词语表单,以确定中文文本信息中各词语的词性,然后基于词语表单进行语义连接度分析,得到关键度评分,以确定中文文本信息中的关键词和关键句,响应于辅助阅读指令中指示的辅助类型,在词语表单和/或关键度评分中确定目标辅助信息,并按照预设规则对目标辅助信息进行辅助提示。由此,本申请能够自动化的是被中文文本信息中的关键词和关键句,通过辅助提示的方式有效进行阅读辅助,能够帮助用户快速进行中文文本阅读和定位,提高阅读速度和质量。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本申请实施例提出的一种中文阅读辅助方法的流程图;
图2为本申请实施例提出的另一种中文阅读辅助方法的流程图
图3为本申请实施例提出的一种中文阅读辅助装置的方框示意图;
图4为用来实现本申请实施例的电子设备或服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1为本申请实施例提出的一种中文阅读辅助方法的流程图。
其中,需要说明的是,本实施例的中文阅读辅助方法的执行主体为中文阅读辅助装置,中文阅读辅助装置可以由软件和/或硬件的方式实现,该实施例中的中文阅读辅助装置可以配置在电子设备中,也可以配置在用于对电子设备进行控制的服务器中,该服务器与电子设备进行通信进而对其进行控制。
其中,本实施例中的电子设备可以包括但不限于个人计算、平台电脑、智能手机、车载终端等设备,该实施例对电子设备不作具体限定。
如图1所示,本申请实施例提出的中文阅读辅助方法,包括以下步骤:
步骤101,响应于辅助阅读指令,获取待辅助阅读的中文文本信息。
需要说明的是,辅助阅读指令可通过阅读界面上设置的选择指令进行输入得到辅助阅读指令,也可通过阅读界面中内置的菜单进行选择得到辅助阅读指令,在阅读装置设置有与辅助阅读指令对应的机械按键时,还可通过机械按键的触发操作得到辅助阅读指令。
其中,在得到辅助阅读指令之后,可根据预设规则获取待辅助阅读的中文文本信息,例如当前页面显示的中文文本信息,也可是当前页面显示的文件对应的中文文本全文信息,还可是自当前页面起预设文字数量或页面数量的中文文本信息。
可选的,辅助阅读指令可为呈现文中动词指令、呈现文中形容词指令、呈现文中关键词指令、呈现文中关键句指令中的一种,应当理解的是,按照词性设置的辅助阅读指令也可根据用户的阅读偏好自行设置,也可设置覆盖更多词性的辅助阅读指令,本申请在此不做具体限定。
步骤102,对中文文本信息进行词语切分,得到词语表单。
其中,词语表单是记录中文文本信息中各词语属性信息的格式数据。
举例来说,词语表单包括固定属性的多列,每个词语对应一行。并按照在句中的顺序依次排列。其中,以下表为例,词语表单中第一列为词语信息,第二列为词频,第三列为词长,第四列为词性,第五列为句子标号,第六列为关键词,第七列为关键句(第六列和第七列的赋值将在步骤103完成)。
在一个或多个实施例中,步骤102,对中文文本信息进行词语切分,得到词语表单,包括:
步骤1021,将中文文本信息转换为字符串变量。
需要说明的是,为了便于数据处理以及变量的调用,将页面中的中文文本信息以字符串变量的形式存储在变量中。
步骤1022,针对字符串变量中的每个字,从字符串变量中提取当前字对应的组块。
其中,当前字对应的组块为当前字可能形成的词语(词组)。
需要说明的是,本申请的目的为基于中文文本信息中的词进行辅助阅读,因此,需要基于字对字所组成的词进行切分识别。
步骤1023,将组块与预设语料库进行匹配,确定当前字对应的当前词语,并从语料库中提取当前词语对应的属性信息生成当前词语对应的词语表单。
其中,预设语料库为预设的存储有词语对应属性的词语列表,预设语料库中记载的词语为候选词语,当组块与预设语料库中的任一候选词语匹配时,确定组块为预设语料中的词语,当组块与预设语料库中的多个候选词语均不匹配时,确定组块不为预设语料中的词语。
进一步地,组块包括预设长度范围,所述方法包括:按照预设长度范围从大到小依次获取多个当前字对应的组块,按照组块长度从大到小依次与预设语料库进行匹配,在识别到组块与预设语料库中任一候选词语匹配时,确定候选词与为组块对应的当前词语,并停止对当前字的匹配操作。
其中,预设长度范围可根据中文常用词的长度进行设定,例如6个汉字等。应当理解的是,通过按照组块长度范围从大到小的顺序进行词语匹配,能够有效降低对词语的反复匹配,即,避免例如“终端”和“移动终端”等词语被反复匹配成功,从而引起因多个候选词语匹配成功造成的二次确认过程,有效提高词语匹配的效率。
举例来说,在将获取到的中文文本信息以字符串变量的形式存储在变量中,然后通过循环语句遍历字符串变量中所有的字,在针对每个字的识别过程中,获取包含当前字之后6个字到0个字组成的7个组块,即,组块1“YXXXXXX”、组块2“YXXXXX”、组块3“YXXXX”、组块4“YXXX”、组块5“YXX”、组块6“YX”,和组块7“Y”然后按照组块长度从大到小的顺序依次与预设语料进行匹配,即,从组块1向组块7的顺序依次进行匹配,如果组块1至组块6中任一组块与预设语料库中的任一候选词语匹配成功,则确定该候选词语为当前字对应的当前词语,如果组块1至组块6均未与预设语料库中的任一候选词语匹配成功,则确定该字未对应有当前词语,进行对下一当前字的判断。
进一步地,遍历字符串变量的过程中,遇到例如逗号、顿号等表示句子停顿的符号时,设置句柄将其跳过,遇到例如句号、感叹号、问好等表示句子结束的符号时,设置句柄将词所在句子编号进行累加,并存储在词语表单对应的句子编号属性信息中。
步骤103,基于词语表单进行语义连接都分析,得到关键度评分。
也就是说,在通过对中文文本信息进行语义切分得到中文文本中包含的词语后,进一步根据各词语之间的语义连接关系,确定关键度评分。其中,关键度评分包括当前词语对应的关键度评分和当前句对应的关键度评分,即,根据关键度评分能够确定中文文本信息中的关键词和关键句。
在关键度评分为当前词语对应的关键度评分时,基于词语表单进行语义连接度分系,得到关键度评分包括:基于词语表单,构建语义连接矩阵,其中,语义连接矩阵根据是否具有相邻关系确定元素值,针对词语表单中任一词语,根据语义连接矩阵确定词语对应的关键度评分。
也就是说,本申请利用语义连接度矩阵计算各词语对应的关键度评分。
其中,语义连接度矩阵为N阶矩阵,以使待辅助阅读的中文文本信息中的词语能够充分对应,进而充分展示每个词语与其他词语之间的关联关系。
具体地,基于词语表单构建N阶初始矩阵,针对任一当前矩阵,将字符串便变量中位于当前词语前一位置的词语按照第一规则进行赋值,其他词语按照第二规则进行赋值,得到语义连接矩阵。
其中,第一规则和第二规则分别为二进制编码中的1和0,即,1表示矩阵中元素位置对应的两个词语节点之间具有连接关系,且被标识的词语在中文文本信息中为参考词语的前一个词语,0标识矩阵中元素位置对应的两个词语节点之间不具有连接关系,或者被标识词语在中文文本信息中为参考词语的后一个词语。
举例来说,以前述列表中词语为例,根据该词语列表建立N×N的N阶矩阵,该矩阵横向对应的节点为词语wi-wnN个词语,纵向对应的节点也为wi-wnN个词语。以矩阵中的横向节点为参考节点或纵向节点为参考节点,对参考节点对应的节点进行语义关联度判断,例如,当以横向节点为参考节点时,对任一横向节点wj对应的wi-wnN个词语进行判断,从wi-wnN个词语中确定每个句子中在位于wj前一个位置的词语例如wk,并将wj和wk的交点位置赋值为1,依次类推,直至遍历横向的N个参考节点,完成对语义连接矩阵的赋值,得到待辅助阅读的中文文本对应的语义连接矩阵。
进一步地,针对任一当前词语,将其在语义连接矩阵中对应的值进行求和,得到当前词语对应的关键度评分。
也就是说,在得到语义连接矩阵后,针对每个参考节点(当前词语),将其对应的列元素进行求和得到该词语对应的关键度评分。
其中,在本申请实施例中,为了进一步提高关键度评分的有效性,在建立N阶初始矩阵之前,还可将词语表单中的非实词删除,即,将起辅助连接作用的词从词语表单中删除,以使用于构建N阶初始矩阵的词语具有实际含义,进而基于N阶初始矩阵确定的连接关系为实词之间的有效连接关系,从而有效提高矩阵赋值的有效性。
由此,本申请能够通过语义连接矩阵的赋值表达各词语之间的连接关系,进而通过连接关系确定各词语的关键度评分,有效实现对中文文本信息词语关键度的自动化识别,在辅助阅读过程中确保数据的可靠性。
进一步地,在关键度评分为当前据对应的关键度评分时,针对每个当前句子,基于词语对应的关键度评分确定每个句子中包含的关键词语,获取当前句子中包含的关键词语的数量,将关键词语的数量作为当前句子对应的关键度评分。
需要说明的是,在前面的步骤计算了当前词语对应的关键度评分,即,每个当前词语都对应有关键度评分,此时,需要根据当前词语对应的关键度评分确定中文文本信息中的关键词语,例如,将关键度评分大于预设阈值的当前词语作为关键词语,或者将关键度评分排序中排序靠前的预设数量的当前词语作为关键词语。
进一步地,在根据当前词语对应的关键度评分得到关键词语后,再根据当前句子中关键词语的数量确定句子的关键度评分,即,当前句子的关键度评分为当前句子中包含的关键词的数量,换言之,当前句子中包含的关键词语越多,句子的关键度评分越高,越有可能成为关键句。
可选的,可将关键度评分大于预设阈值的当前句作为关键句,或者关键度评分排序中排序靠前的预设数量的当前句作为关键句。
可选的,在根据语义连接矩阵确定出关键词语后,可在词语表单中增加第六列按0或1赋值对关键词语进行标注,然后再在词语表单中增加第七列按0或1赋值对关键句进行标注。
步骤104,响应于辅助阅读指令中指示的辅助类型,在词语表单和/或关键度评分中确定目标辅助信息,并按照预设规则对目标辅助信息进行辅助提示。
其中,目标辅助信息为语辅助类型相对应的词语,例如,当辅助类型为词性时,目标辅助信息为符合该词性的词语,当辅助类型为关键词时,目标辅助信息为关键度评分满足预设规则的词语,当辅助类型为关键句时,目标辅助信息为关键度评分满足预设规则的句子,其中,预设规则可为关键度评分高于预设阈值或者关键度评分排序中的预设数量。
其中,辅助提示的预设规则包括但不限于颜色突出显示、字体突出显示等,例如通过添加文字底色或改变字体颜色对目标辅助信息进行突出显示。
可选的,当辅助阅读指令为多个时,可根据辅助阅读指令的不同确定多个不同的预设规则,例如,关键字利用红色字体,名词利用黄色背景色,动词利用蓝色背景等。
综上所述,本申请提出的中文阅读辅助方案,响应于辅助阅读指令,获取待辅助阅读的中文文本信息,对中文文本信息进行词语切分得到词语表单,以确定中文文本信息中各词语的词性,然后基于词语表单进行语义连接度分析,得到关键度评分,以确定中文文本信息中的关键词和关键句,响应于辅助阅读指令中指示的辅助类型,在词语表单和/或关键度评分中确定目标辅助信息,并按照预设规则对目标辅助信息进行辅助提示。由此,本申请能够自动化的是被中文文本信息中的关键词和关键句,通过辅助提示的方式有效进行阅读辅助,能够帮助用户快速进行中文文本阅读和定位,提高阅读速度和质量。
应当注意,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。
图3为本申请实施例提出的一种中文阅读辅助装置的方框示意图。
如图3所示,中文阅读辅助装置10,包括:
获取模块11,用于基于辅助阅读指令,获取待辅助阅读的中文文本信息;
第一分析模块12,用于对所述中文文本信息进行词语切分,得到词语表单;
第二分析模块13,用于基于所述词语表单进行语义连接度分析,得到关键度评分;
辅助模块14,用于基于所述辅助阅读指令中指示的辅助类型,在所述词语表单和/或关键度评分中确定目标辅助信息,并按照预设规则对所述目标辅助信息进行辅助提示。
在一些实施例中,第一分析模块12,还用于:
将所述中文文本信息转换为字符串变量;
针对所述字符串变量中的每个字,从所述字符串变量中提取当前字对应的组块;
将所述组块与预设语料库进行匹配,确定所述当前字对应的当前词语,并从所述语料库中提取所述当前词语对应的属性信息生成所述当前词语对应的词语表单。
在一些实施例中,第一分析模块12,还用于:
按照所述预设长度范围从大到小依次获取多个所述当前字对应的组块;
按照所述组块长度从大到小依次与所述预设语料库进行匹配;
在识别到所述组块与所述预设语料库中任一候选词语匹配时,确定所述候选词语为所述组块对应的所述当前词语,并停止对所述当前字的匹配操作。
在一些实施例中,所述关键度评分包括当前词语对应的关键度评分,第二分析模块13,还用于:
基于所述词语表单,构建语义连接矩阵,其中,所述语义连接矩阵根据是否具有相邻关系确定元素值;
针对所述词语表单中任一当前词语,根据所述语义连接矩阵确定所述当前词语对应的关键度评分。
在一些实施例中,第二分析模块13,还用于:
基于所述词语表单构建N阶初始矩阵;
针对任一所述当前词语,将在所述字符串变量中位于所述当前词语前一位置的词语按照第一规则进行赋值,其他词语则按照第二规则进行赋值,得到所述语义连接矩阵。
在一些实施例中,第二分析模块13,还用于:
针对任一所述当前词语,将其在所述语义连接矩阵中对应的值进行求和,得到所述当前词语对应的所述关键度评分。
在一些实施例中,所述关键度评分包括当前句对应的关键度评分,第二分析模块13,还用于:
针对每个当前句子,基于所述当前词语对应的关键度评分确定每个句子中包含的关键词语;
获取所述当前句子中包含的所述关键词语的数量,将所述关键词语的数量作为所述当前句子对应的关键度评分。
在一些实施例中,所述辅助阅读指令中指示的辅助类型包括词性、关键词和关键句中的至少一种。
应当理解,中文阅读辅助装置10中记载的诸单元或模块与参考图1描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征同样适用于中文阅读辅助装置10及其中包含的单元,在此不再赘述。中文阅读辅助装置10可以预先实现在电子设备的浏览器或其他安全应用中,也可以通过下载等方式而加载到电子设备的浏览器或其安全应用中。中文阅读辅助装置10中的相应单元可以与电子设备中的单元相互配合以实现本申请实施例的方案。
在上文详细描述中提及的若干模块或者单元,这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
下面参考图4,图4示出了适于用来实现本申请实施例的电子设备或服务器的计算机系统的结构示意图,
如图4所示,计算机系统包括中央处理单元(CPU)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM403中,还存储有系统的操作指令所需的各种程序和数据。CPU401、ROM402以及RAM403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
以下部件连接至I/O接口405;包括键盘、鼠标等的输入部分406;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装入存储部分408。
特别地,根据本申请的实施例,上文参考流程图图2描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以为的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作指令。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如,两个连接表示的方框实际上可以基本并行地执行,他们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作指令的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,例如,可以描述为:一种处理器包括获取模块、第一分析模块、第二分析模块和辅助模块。其中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定,例如,获取模块,还可以被描述为“基于辅助阅读指令,获取待辅助阅读的中文文本信息”。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的,也可以是单独存在,而未装配入该电子设备中的。上述计算机可读存储介质存储有一个或多个程序,当上述程序被一个或者一个以上的处理器用来执行描述于本申请的中文阅读辅助方法。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离前述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其他技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种中文阅读辅助方法,其特征在于,包括:
响应于辅助阅读指令,获取待辅助阅读的中文文本信息;
对所述中文文本信息进行词语切分,得到词语表单;
基于所述词语表单进行语义连接度分析,得到关键度评分;
响应于所述辅助阅读指令中指示的辅助类型,在所述词语表单和/或关键度评分中确定目标辅助信息,并按照预设规则对所述目标辅助信息进行辅助提示。
2.根据权利要求1所述的方法,其特征在于,所述对所述中文文本信息进行词语切分,得到词语表单,包括:
将所述中文文本信息转换为字符串变量;
针对所述字符串变量中的每个字,从所述字符串变量中提取当前字对应的组块;
将所述组块与预设语料库进行匹配,确定所述当前字对应的当前词语,并从所述语料库中提取所述当前词语对应的属性信息生成所述当前词语对应的词语表单。
3.根据权利要求2所述的方法,其特征在于,所述组块包括预设长度范围,所述方法包括:
按照所述预设长度范围从大到小依次获取多个所述当前字对应的组块;
按照所述组块长度从大到小依次与所述预设语料库进行匹配;
在识别到所述组块与所述预设语料库中任一候选词语匹配时,确定所述候选词语为所述组块对应的所述当前词语,并停止对所述当前字的匹配操作。
4.根据权利要求1所述的方法,其特征在于,所述关键度评分包括当前词语对应的关键度评分,所述基于所述词语表单进行语义连接度分析,得到关键度评分,包括:
基于所述词语表单,构建语义连接矩阵,其中,所述语义连接矩阵根据是否具有相邻关系确定元素值;
针对所述词语表单中任一当前词语,根据所述语义连接矩阵确定所述当前词语对应的关键度评分。
5.根据权利要求4所述的方法,其特征在于,所述基于所述词语表单,构建语义连接矩阵,包括:
基于所述词语表单构建N阶初始矩阵;
针对任一所述当前词语,将在所述字符串变量中位于所述当前词语前一位置的词语按照第一规则进行赋值,其他词语则按照第二规则进行赋值,得到所述语义连接矩阵。
6.根据权利要求5所述的方法,其特征在于,所述根据所述语义连接矩阵确定所述词语对应的关键度评分,包括:
针对任一所述当前词语,将其在所述语义连接矩阵中对应的值进行求和,得到所述当前词语对应的所述关键度评分。
7.根据权利要求4所述的方法,其特征在于,所述关键度评分包括当前句对应的关键度评分,所述方法还包括:
针对每个当前句子,基于所述当前词语对应的关键度评分确定每个句子中包含的关键词语;
获取所述当前句子中包含的所述关键词语的数量,将所述关键词语的数量作为所述当前句子对应的关键度评分。
8.根据权利要求1所述的方法,其特征在于,所述辅助阅读指令中指示的辅助类型包括词性、关键词和关键句中的至少一种。
9.一种中文阅读辅助装置,其特征在于,包括:
获取模块,用于基于辅助阅读指令,获取待辅助阅读的中文文本信息;
第一分析模块,用于对所述中文文本信息进行词语切分,得到词语表单;
第二分析模块,用于基于所述词语表单进行语义连接度分析,得到关键度评分;
辅助模块,用于基于所述辅助阅读指令中指示的辅助类型,在所述词语表单和/或关键度评分中确定目标辅助信息,并按照预设规则对所述目标辅助信息进行辅助提示。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一所述的中文阅读辅助方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210083607.5A CN116522913A (zh) | 2022-01-24 | 2022-01-24 | 中文阅读辅助方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210083607.5A CN116522913A (zh) | 2022-01-24 | 2022-01-24 | 中文阅读辅助方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116522913A true CN116522913A (zh) | 2023-08-01 |
Family
ID=87389125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210083607.5A Pending CN116522913A (zh) | 2022-01-24 | 2022-01-24 | 中文阅读辅助方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116522913A (zh) |
-
2022
- 2022-01-24 CN CN202210083607.5A patent/CN116522913A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111460092B (zh) | 一种基于多文档的复杂问题自动化求解方法 | |
JP5462001B2 (ja) | 文脈上の入力方法 | |
CN110674271B (zh) | 一种问答处理方法及装置 | |
US8447789B2 (en) | Systems and methods for creating structured data | |
CN111625632A (zh) | 一种问答对推荐方法、装置、设备及存储介质 | |
CN112131881B (zh) | 信息抽取方法及装置、电子设备、存储介质 | |
CN110909145A (zh) | 针对多任务模型的训练方法及装置 | |
CN112765974B (zh) | 一种业务辅助方法、电子设备及可读存储介质 | |
CN117520523B (zh) | 数据处理方法、装置、设备及存储介质 | |
CN117520524B (zh) | 一种用于行业的智能问答方法及系统 | |
US20210056261A1 (en) | Hybrid artificial intelligence system for semi-automatic patent pinfringement analysis | |
CN116150621A (zh) | 文本模型的训练方法、装置、及设备 | |
CN112287085A (zh) | 语义匹配方法、系统、设备及存储介质 | |
CN117271736A (zh) | 一种问答对的生成方法和系统、电子设备及存储介质 | |
CN115169329A (zh) | 一种基于Bert的中文文本纠错方法、设备及存储介质 | |
CN113434631A (zh) | 基于事件的情感分析方法、装置、计算机设备及存储介质 | |
CN117370512A (zh) | 回复对话的方法、装置、设备及存储介质 | |
CN117112754A (zh) | 信息处理方法、装置、电子设备及存储介质 | |
CN107908792B (zh) | 信息推送方法和装置 | |
CN109684357B (zh) | 信息处理方法及装置、存储介质、终端 | |
CN116522905A (zh) | 文本纠错方法、装置、设备、可读存储介质及程序产品 | |
CN116522913A (zh) | 中文阅读辅助方法、装置及存储介质 | |
CN116304046A (zh) | 对话数据的处理方法、装置、存储介质及电子设备 | |
CN113807106B (zh) | 翻译模型的训练方法、装置、电子设备及存储介质 | |
CN115309994A (zh) | 地点检索方法、电子设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |