CN1732461A - 基于要素的多个文件的分析系统和方法 - Google Patents

基于要素的多个文件的分析系统和方法 Download PDF

Info

Publication number
CN1732461A
CN1732461A CNA2003801077941A CN200380107794A CN1732461A CN 1732461 A CN1732461 A CN 1732461A CN A2003801077941 A CNA2003801077941 A CN A2003801077941A CN 200380107794 A CN200380107794 A CN 200380107794A CN 1732461 A CN1732461 A CN 1732461A
Authority
CN
China
Prior art keywords
token
file
network
analyzer
key element
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2003801077941A
Other languages
English (en)
Other versions
CN100550007C (zh
Inventor
崔银净
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Original Assignee
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LG Electronics Inc filed Critical LG Electronics Inc
Publication of CN1732461A publication Critical patent/CN1732461A/zh
Application granted granted Critical
Publication of CN100550007C publication Critical patent/CN100550007C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion
    • G06F16/88Mark-up to mark-up conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/221Parsing markup language streams

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Information Transfer Between Computers (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供了被配置以基于要素对网络文件进行分析的系统和方法。所述的系统可以包括词分析器和语法分析器,所述的词分析器用于提取和分离提供给终端的文件的所有权标,而不考虑通过参考权标表格用于组成网络-文件的标志语言的类型;所述的语法分析器用于根据内容模型,为由所述的词分析器提取和分离的权标分析语法,并且通过被分析的语法,根据终端的GUI产生对象。所述的权标表格可以包括提供对于提供给手持终端的所有的文件,在XML文件中定义的权标、在文件类型定义(DTD)中确定的关键字,和可以由每个终端支持的要素的列表。可以根据DTD确定所有提供给终端的文件的所述的内容模型,并且所述的内容模型包括要素的级别和属性表。

Description

基于要素的多个文件的分析系统和方法
技术领域
本发明涉及分析器,该分析器用于在手持终端上浏览网络-文件,并且更为具体的说涉及网络文件集成分析系统和方法,所述的方法和系统用于整体地支持由各种类型的标志语言组成的网络文件。
背景技术
图1示出了一结构示意图,其中示出了根据现有技术在手持终端上浏览网络文件。
参考图1,网络-服务器130具有由多种标志语言组成的网络-文件。手持终端110为每一个标志语言提供了浏览器,比如手持装置标志语言(HDML)浏览器111、无线标志语言(WML)网络-浏览器112和移动超文本标志语言(mHTML)网络-浏览器113,并且直接连接到网络-服务器130或通过WAP网关120连接以浏览对应的网络文件。
依据这种结构,因为一个终端应该具有与所支持的标志语言的数量相等的多个浏览器,以便浏览各种类型的网络-文件,手持终端的结构是复杂的。
相应地,现在,由于手持电话的广泛使用,出现了来源于传统的超文本标志语言(HTML)的标志语言,以便支持无线的因特网服务。
不使用传统的HTML提供无线因特网服务,而使用另一种已经公开的标志语言的原因是无线信道的限制和手持终端的限制。所述的移动终端本身,比如现有手持电话的窗口尺寸与在有线因特网中使用的台式计算机的窗口尺寸相比较小,并且在它的中央处理器(CPU)和存储器的计算机性能与台式个人计算机相比较也较低。然而,因为由传统的有线因特网提供的HTML有许多功能并且处理起来是很复杂的,对手持终端来讲它难于支持HTML。
因此,所述的继承了HTML的功能并且专用于每个终端的标志语言已经被开发出来。例如,出现了HDML、WML、mHTML和压缩HTML(cHTML)并且提供服务。
然而,考虑到服务提供者和终端的特征,以上标志语言被独立地开发,并且彼此不兼容。换句话说,当因特网服务提供者打算将相同的内容提供给两种终端的时候,因特网服务提供者应该开发两个内容,以便在每种终端中能够处理遵循标志规则的内容。终端用户不能看到由另一因特网服务提供者提供的内容。
发明内容
相应地,本发明涉及根据要素分析多个文件的系统和方法,它基本上避免了由现有技术造成的限制和缺点所产生的一个或多个问题。
本发明的目的是提供一种系统和方法,所述的系统和方法用于分析基于要素的网络文件,其中所述的内容由传统的有线和无线网络站点提供的多种标志语言组成,可以整体地浏览所述的内容,而不考虑手持终端的规范。
本发明的另一目的是提供一系统和方法,用于基于要素分析网络-文件,其中所述的要素可以在终端中处理,并且当分析不同标志语言的特征和根据要素分析文件时,该要素被选择作为数据将被存储,以便扩展因特网服务频带。
本发明的其它优点、目的和特征将在随后的说明中部分地描述,经过以下检验或从本发明的实践中学习,上述优点、目的和特征对于本领域的普通技术人员来说是显而易见的。本发明的目的和优点可以如所附说明书及其权利要求书和附图中所特别指出的来实现和获得。
为实现本发明的这些和其它的优点,以及根据本发明的目的,如这里具体地和广泛地描述的,基于要素分析网络-文件的系统调用网络-文件以提供给手持终端的应用程序,该系统包括:词分析器,其用于通过参考权标表格而根据标志和非标志,分离和产生权标,所述的权标表格用于所有被支持的文件类型所必需的标志数据;和语法分析器,其用于根据每个文件的文件类型定义(DTD)分析内容模型,根据分析内容模型的结果分析每个语法,并且根据终端的图形用户界面(GUI)产生基于树的对象。
该词分析器包括:注释分析器,其用于处理注释和空格符(space);标记开始分析器,其用于识别标志开始标记并产生权标;属性分析器,用于分析属性并产生权标;和被分析字符数据分析器,其用于分析被分析的字符数据并产生权标。所述的语法分析器包括:XML检验器,其用于根据由词分析器产生的权标检验相应的文件是否被组成为适用于每个DTD的;和基于终端GUI的对象发生器,其用于匹配被分析的标志和终端的GUI。
为了进一步达到这些及其它优点并且根据本发明的目的,用于分析被调用的网络-服务器的网络-文件的方法包括如下步骤:(a)从网络-文件读取权标并且分析该权标;(b)如果该权标不是定义的开始标记或如果该权标是作为步骤(a)的结果的注释或空格符,忽略该权标,当读取定义的开始标记的时候,分析来自该权标的要素的属性;(c)分析来自该权标的要素的属性,存储与该要素的信息相关的GUI,并且分析要素的内容;(d)作为步骤(c)的结果,如果要素的内容是被分析过的字符数据,存储与该内容的信息相关的GUI,如果该要素的内容不是被分析的字符数据,读出数据直到出现结束标记;(e)在要素的内容不是被分析的字符数据的情况下,如果确定出现了与定义的开始标记相应的结束标记,终止,如果没有出现结束标记,忽略并且返回。
为了进一步实现这些及其它优点并且根据本发明的目的,手持终端包括:集成分析器,其用于分析由预先确定的标志语言组成的网络-文件,所述的预先确定的标志语言来自于网络-服务器;存储器,其用于存储由集成分析器分析的信息;和使用了从集成分析器提取的信息的应用程序。
在此,所述的集成分析器包括:权标表格,包括所有的提供给手持终端的文件中,在XML文件中定义的权标、在DTD中定义的关键字,和可以由每一个手持终端支持的要素的列表;词分析器,其用于通过参考权标表格提取和分离提供给终端的文件的全部权标,而不管用于组成网络-文件的标志语言的类型;为全部提供给终端的文件在DTD中定义的内容模型,其代表了要素级别和属性表;语法分析器,其用于为由词分析器根据内容模型提取和分离的权标分析语法,并且根据终端的GUI通过分析语法产生对象。
应该理解本发明的前述一般描述和下面的具体描述都是示例性和说明性的,并且意在提供本发明如权利要求所述的进一步解释。
附图说明
附图是为了能进一步了解本发明而包含的,并且被纳入本说明书中构成本说明书的一部分,这些附图示出了本发明的一个或多个实施例,并用于与本说明书一起对本发明的原理进行说明。
在附图中:
图1示出了一结构示意图,其中示出了根据现有技术中在手持终端上浏览网络文件;
图2是一方框图,示出了通过使用根据本发明的实施例的网络-文件分析系统,在手持终端上浏览网络-文件的图示;
图3示出了一使用了根据本发明的实施例的网络-文件分析系统的手持终端的内部配置;
图4示出了一根据本发明的网络-文件分析系统的结构示意图;
图5是一示意图,示出了图4所示的词分析器的操作;
图6是一根据本发明的语法结构的例子;并且
图7是一流程图,示出了根据本发明的实施例的集成的分析器的分析步骤。
具体实施方式
以下,本发明的优选实施例将参考相关附图被详细说明。在此,相同的附图标记针对由一对组成的要素并且每一对使用英文字母进行细分。
在本发明中,建议的结构中,调用网页以根据要素分析被调用的网页,并且将提取的信息传送到应用程序,以便将各种类型的内容数据提供给用户,例如来自于在因特网上构造的现有的网络-服务器的,而不考虑手持终端的限制。当前服务标志语言被分为三种类型,如表1所示。
表1
    分类   单一文件     实施例类型结构     模数化结构
    结构
    标志语言     XHTML     WML2   XHTML模数化
    WML 使用域名空间的不同方法
    CHTML     嵌入标志语言的方法
    MHTML 使用对象标记的对象嵌入
    HTML   使用协议的对象嵌入
参考表1,在被分类的标志语言中,除了HTML文件以外,大多数文件是根据XML开发的,并且它正在从HTML变为XML。相应地,在本发明中,公开了基于XML的标志语言的集成分析系统的实施例。
图2是一方框图,示出了根据本发明的实施例的网络-文件分析系统的整体结构,其中通过使用该网络-文件分析系统在手持终端上浏览网络-文件。
参考图2,在本发明中,由预先确定的标志语言组成的网络-文件来自于网络-服务器230。本发明应用的手持终端210包括集成分析器214,其用于分析由预先确定的标志语言组成的网络-文件,所述的预先确定的标志语言来自于网络-服务器230;以及应用程序212,其使用从集成分析器214中提取的信息。
在此,集成分析器214接收由多种标志语言组成的网络-文件,所述的多种标志语言来自于网络-服务器230,并且根据存储在存储器或硬盘(没有示出)中的数据输出应用程序212需要的信息。
换句话说,来自于网络-服务器230的文件包括根据SGML或XML组成图象的全部文件,所述的SGML或XML可以是例如XHTML、mHTML、cHTML、WML、HDML、HTML。仅利用HTML的一些功能就可以定义大多数标志语言,比如XHTML、mHTML、cHTML、WML、HDML。WML有一些附加的定义要素。
图3示出了使用了根据本发明的实施例的网络-文件分析系统的手持终端的内部配置。
这是为了示出手持终端的实施例。本发明不仅限于图3的结构。所述的手持终端是手持电话、PDA等等的通用表示。
参考图3,将接着说明手持终端的基本功能和操作。
根据本发明的手持终端100包括天线41、RF和IF电路21、基带模拟(BBA)处理器23、RF接口25、码分多址(CDMA)处理器27、数字FM(DFM)IS-95A处理器29、中央处理器31、语音编码器33、外围电路35、存储器37和语音编解码器39。
在此,存储器37包括集成分析器214,该集成分析器214用于分析由预先确定的标志语言组成的网络-文件,所述的预先确定标志语言来自于网络-服务器230,还包括使用从集成分析器214提取的信息的应用程序212。
在此,集成分析器214接收由多种标志语言组成的网络-文件,所述的多种标志语言来自于网络-服务器230,并且根据存储在RAM、EPROM、闪存存储器等等中的数据输出应用程序212需要的信息。
外围电路35包括通用异步收发器(UART)电路、键区、SPI,GPIO、信号器等等。存储器37包括RAM、EPROM、闪存存储器等等。语音编码器33包括码分多址语音编码器和DFM语音编码器。
此外,语音编解码器39还具有模数转换器和数模转换器。语音编解码器39以发送模式执行模拟数字转换,并且以接收模式执行数-模转换。
当终端100发送语音信号时,语音编解码器39通过麦克风将产生的模拟信号转换为数字信号,并且将该数字信号发送给语音编码器33。在CDMA模式中,语音编码器33的CDMA处理器27和CDMA语音编码器处理信号。为了在模拟模式(AMPS、TACT等等)中使用的DFM模拟IS-95A,语音编码器33的DFM处理器29和DFM语音编码器处理信号。
将语音编码器33的输出输入到所选的CDMA处理器27或将被处理的DFM处理器29,然后输入到BBA处理器23,然后转换成基带信号,然后输入到RF和IF电路21,然后通过天线41发送。
当终端100处于接收模式时,RF和IF电路21将通过天线41接收的RF信号转换为基带信号,然后BBA处理器23将基带信号转换为数字信号。将数字信号输入到码分多址处理器27和DFM处理器29。CDMA处理器27和DFM处理器29处理该数字信号,并且将处理过的信号输出到语音编码器33。语音编码器33将输入信号转换为脉冲编码调制(PCM)格式的数据,并且将该数据输出到语音编解码器39。语音编解码器39将该数据转换为模拟信号,并且将该模拟信号输出到扬声器或耳机。
控制RF和IF以及BBA处理器23电路的信号,即,偏移和增益控制信号被通过RF接口25传输。此外,中央处理器31控制整个系统;特别是铃供能和通过外围电路35的具有密钥的接口。
本发明的手持终端与传统的手持终端相比,包括集成分析器214和使用了从集成分析器214提取的信息的应用程序212。手持终端调用网页以根据要素分析被调用的网页,并且将提取的信息传送到应用程序,以便将各种类型的内容数据,例如来自于在因特网上构造的现有的网络-服务器的内容数据提供给用户,而不考虑手持终端的限制。
将详细说明本发明的手持终端100中使用的集成分析器,也就是网络-文件分析系统214。
图4示出了根据本发明的网络-文件分析系统的结构示意图。图5是一示意图,示出了图4所示的词分析器的操作。图6是根据本发明的语法结构的例子。
本发明的分析系统214包括词分析器310和语法分析器320,如图4所示。词分析器310参考权标表格311,根据标志和非标志分离权标,所述的权标表格用于支持的多种文件所必需的全部标志数据。
在此,词分析器310在文件上被执行,所述的文件根据SGML或XML组成图象,所述的SGML或XML可以是例如XHTML、mHTML、cHTML、WML、HDML、HTML。
权标表格包括在XML文件中定义的权标(例如<,>,″,″,′,′,=,等等)和在全部支持的DTD中定义的关键字(例如html、wml、名称、定位、等等),并且此外包括可以由每个终端支持的要素的列表。
在此,权标是指基本语言要素,该语言要素不能再被语法地划分,例如,关键字、运算符标点符号等等。每个终端中都包括权标表格311。
换句话说,词分析器310使用权标表格311,根据标志和非标志,分离提供给集成分析器214的文件的全部权标。
相应地,集成分析器214仅忽略要素的终端210不支持的标志部分,也就是说,标识名(要素类型)和属性(属性表),并且浏览标志部分,例如为用户分析的字符数据。
例如:如果<palign=″center″>Helloworld!</p>,终端不支持p要素,忽略在″<″and″>″之间的标志数据,并且浏览为用户分析的字符数据″Helloworld!″。
此外,集成分析器214产生对象,该对象表示被提供的文件的关于要素的标志部分的结构。换句话说,集成分析器214分析该要素并且产生对应的GUI对象。通常,分析器以树格式创建文件对象模型,以便应用程序212可以自由地进行选择。
语法分析器320通过由词分析器为用户提取的权标浏览预先确定的数据。
语法分析器320包括XML检验器322和基于GUI的对象发生器323,并且帮助在每一个手持终端上恰当地浏览全部标志语言的文件。语法分析器320根据每个文件的DTD分析内容模型321,根据分析内容模型321的结果分析每个语法。以及根据终端的GUI产生基于树的对象,以将基于树的对象作为交付的数据提供。
在此,内容模型321是指要素的级别和属性表(属性),并且在DTD中被定义。例如,HTML具有作为较低要素的文本正文和报头。WML有作为低要素的报头和卡(card)。在此,卡与正文级别相同,因为卡表示一个页面。WML与HTML级别相同的,因为WML表示一个文件。
分析要素的级别,并且用于设计语法分析器320的语法。
另外,基于GUI的树对象对应于终端210的应用程序212,如图2和3所示。
换句话说,根据内容模型321组成语法分析器320的语法。相应地,语法分析器320分析输入文件,以便创建GUI模型。
在提供给集成分析器214的文件中,通过词分析器310提取文件的权标,并且将权标表格311输入到语法分析器320并且为用户浏览。在此,语法分析器320的XML检验器根据内容模型321分析语法。基于GUI的对象发生器323与XML检验器322一起产生基于对象的GUI。换句话说,当XML检验器322在输入文件中的一个要素上执行内容模型分析的时候,基于GUI对象发生器323产生对应的基于GUI的对象。
在此,与词分析器310的字分析过程和语法分析器320的语法分析处理有关,只有在全部字分析过程完成之后才开始语法分析处理。只要语法分析器320的分析状态需要,也就是说,语法分析状态或环境改变了,请求词分析器310提供权标。换句话说,词分析器310和语法分析器320合作。
词分析器310包括权标发生器312和XML符号语法规则检验器313,并且根据XML符号语法规则标准提取权标。在此,由文件的全部支持的权标组成权标表格。
此外,如图5所示,根据XML结构改变状态以便分离一个权标。
如上所述,权标是指BASIC语言要素,该要素不能再被符合语法地划分。词分析器310一字符接一字符地扫描提供给集成分析器214的文件字符,根据权标表格311识别文件的权标,并且通过使用权标发生器312和XML符号语法规则检验器313解析和提取权标。当将提取的权标传输给语法分析器320时,语法分析器320根据该权标解析文件的语法。
图4所示的权标发生器表示程序的结构,该程序包括权标类型和字符串。例如,如果在提供给集成分析器214的文件中有字符串″html″,通知语法分析器这个要素的类型是HTML,并且它是由四个字符″html″组成的权标。
在提供给集成分析器214的文件中,也就是说,与通用程序设计语言不同,根据它是否是标志或非标志,网络-文件和字符串具有不同权标。例如,在<html>、<p>html</p>和<!--html-->的情况下,html被分为不同权标。<html>表示要素类型。<p>html</p>表示被分析的字符数据。<!--html-->表示注释。因此,<htrnl>、<p>html</p>和<!--html-->具有相互不同的权标。
因此,就权标的状态而言,根据词分析器310的状态即使相同的词也可以提取不同的权标。词分析器310将权标分为通用、开始标记和被分析的字符数据,并且分析它们。
换句话说,词分析器310的状态被分为注释、开始标记、属性(例如attrStart和attValue)和被分析的字符数据。
参考图5,通常,网络-文件包括空格符、开始标记、结束标记。本发明的词分析器310解析网络-文件,以便通过使用注释分析器410、标志开始分析器420、第一属性分析器430、第二属性分析器440和数据分析器450产生权标。
换句话说,在初始状态,可以是空格符、开始标记″<″的开始、结束标记″</″的开始、注释″<!--″的开始和被分析的数据。根据在初始状态被识别的权标的类型,不同的分析器分别识别下一个权标。当每一个分析器识别权标的时候,被识别的权标被传输到语法分析器。然后,根据下一个权标的类型确定它是否保持分析状态或返回到初始状态。在此,如果返回到初始状态,重复该处理。
在此,空格符可以包括至少一个空格符、回车、换行和制表符。
此外,第一和第二属性分析器430和440可以是相互替换的属性分析器。换句话说,第一属性分析器430是用于识别属性的名称的例程,第二属性分析器440是用于识别属性值的例程。所述的属性值可以是通用字符串或关键字,例如中间、左边、右边。
在此,如果属性值是关键字,第一属性分析器430立刻识别名称和属性值,不需要根据值分辨名称。例如,如果标题=″欢迎您到我的主页来″,需要第一和第二两个属性分析器430和440,但是如果定位=″中心″,不需要第二属性分析器440,因为仅需要第一属性分析器430识别名称和值。
总的来说,词分析器310根据XML符号语法规则标准解析文件并且提取权标。语法分析器320通过使用由词分析器310提取的权标,检查是否组成了适合于DTD的文件,并且使被分析的标志与终端的GUI匹配。
换句话说,语法分析器320执行映射操作,以便通过由手持终端支持的GUI表示具体的标志语言的GUI模型,而不考虑具体的标志语言。
预先形成映射操作的理由如下。因为手持终端具有适合于他们自己的GUI,手持终端不能像台式计算机那样支持全部标志语言标准。因此,标志语言的GUI特征应该被修改为适于对应的手持终端的GUI。
本发明的语法分析器320定义了如图6所示的语法结构,以便分析文件或多个文件的各种类型。
在图6中,文件是指提供给集成分析器214的文件。语言A,语言B和语言C是指支持HTML、WML、HDML等等的标志语言。在实际语法中,语言是表示文件的要素,该文件是传递单元。
因为标志语言具有不同DTD,并且部分地包括一些HTML的功能,在不同DTD中类型相同的要素被认为是相同的要素。图5从理论上示出了这些事件。
换句话说,如图6所示的语法结构,分析器可以分析支持多种标准的标志语言。分析器解析全部被支持的DTD,并且为每个要素定义了语法。
在此,考虑了要素和属性,大部分要素和属性可被用于多种语言,但是一些要素或属性限于某个专用语言。因此,在本发明中,系统的目的是分析显示的全部标志的公共因素。
表格2表示以BUF格式的图6的语法结构。
表2
[1]Document:=LanguageA|LanguageB|LanguageC[2]LanguageA:=[ElementA′|ElementB′]*LanguageB|LanguageC...[3]ElementA′:=attributescontents[4]Attributes=:AttributeA″AttributeB″[5]Contents=:[ElementB′|ElementC′]*...[6]LanguageB:=[ElementA′|ElementD’]*LanguageA|LanguageC
下面将说明表格2的语法。行[1]的意思是被分析的文件由支持多种标准的一个语言组成。行[2]的意思是每一个语言包括一个内容模型,根据内容模型自己的DTD组成该内容模型,并且还可以包括另一个语言。行[3]-[5]的意思是每个要素可以包括属性和它自己的内容。行[6]的意思是每一个语言包括一个内容模型,根据内容模型自己的DTD组成该内容模型,并且还可以包括另一个如行[2]那样的语言。
在附加的详细说明中,行[1]表示文件中的根要素,也就是传输单位,例如,文件:=html|hdml|wml。通常,根要素具有与标志语言的名称相同的字符串。这些确定了标志语言的类型。
行[2]的意思是根要素包括几个要素并且嵌入了其他标志语言。例如,html:=[headbody]|hdml|wml。
行[3]的意思是要素具有属性和内容。行[4]表示属性的类型,有一个要素可以具有该属性。例如,attributes:=name|title|align...,
行[5]表示另一个要素可以是要素的内容。例如:(body)contents:=p|br|hl|...
行[6]表示作为一个标志语言的根要素的要素可以包括,并且意思是指语言A和语言C可以被表示为被嵌入的另一个标志语言的根要素。例如,wm:=card*|hdml|html|...
在此,所述的语法仅是一个实施例。正文和卡是属于不同标志语言的要素,要素通常包括p和br。
参考图7将说明本发明根据如上所述配置的网络-文件分析系统中的分析步骤,将根据要素解析多种网络-文件。
如图7所示,本发明的集成分析器214识别分析的开始和结束,将开始和结束作为最高要素。集成分析器214依据识别的要素的开始标记开始分析操作,并且当识别要素的结束标记的时候,结束分析操作。
在本发明中,词分析器310响应请求解析网络-文件,读取产生的权标,并且确定该权标是否是注释或空格符。如果读取的权标是注释或空格符,词分析器310读取全部权标,但是不处理该读取的权标,并且读取权标以再次识别要素(步骤601-603)。
相反,如果在该步骤601读取的权标不是注释或空格符,但是应用程序212定义了要素的开始标记(步骤604),要素的属性和内容都被分析(步骤605),并且读取标记直到属性结束,也就是说,出现结束标记(步骤606-607)。最后,存储关于要素的GUI的信息和属性(步骤608)。
语法分析器320解析要素内容之后,词分析器310读取保持的权标(步骤609-610)。
然后,在步骤611,确定读取的权标是不是被分析的字符数据。如果读取的权标是被分析的字符数据,在步骤612存储与内容的GUI相关的信息。如果读取的权标不是被分析的字符数据,确定与以前读取的标记相应的结束标记是否通知了注释、空格符、要素或被分析的字符数据,例如在步骤613出现的字符串。
如果在步骤613读取的权标不是结束标记,从步骤601开始重复所述的步骤。如果有结束标记,确定结束标记是否是与在步骤614定义的开始标记对应的结束标记。
如果没有出现在步骤614步骤的权标定义的结束标记,忽略它(步骤616)。如果有结束标记,终止它。
如果是被分析的字符数据,也就是说,将在步骤611出现的用户数据,比如字符串,显示在屏幕上,存储相关的信息(步骤612)。如果读取了当前的要素的结束标记,终止分析该要素。如果读取了在应用程序212定义的要素的开始标记,认为它是要素内容并且分析该要素。
同时,如果在步骤604识别到了不是在应用程序定义的要素的开始标记,读取权标直到出现标记、属性和要素的结束标记。不处理它们,但是回到初始状态(步骤615)。
作为一个例子,假设提供给分析系统的文件是以下HDML文件。将通过参考图2至7说明本发明的通过集成分析的HDML文件的最后显示。
<!--HDMLexample-->
<HDML>
<DISPLAY>
<ACTIONTYPE=ACCEPTLEVEL=″Done″>
       You just won the lottery!
</DISPLAY>
</HDML>
为了被提供的文件,从文件分离由终端210支持的要素的方法可以包括根据由终端210支持的要素定义权标表格,并且产生未定义的权标UNKNOWN权标或忽略未定义的权标的方法,和定义文件的全部权标和识别权标并且使分析器的应用程序确定该权标是否被使用的方法。在此,这两个方法需要由终端支持的要素列表。
将使用第一方法和HDML例子对根据本发明的分析系统的操作进行说明。
针对这些例子,假设终端210可以支持hdml并且显示,但是不能支持在HDML例子中使用的要素之中的动作。
在图4所示的权标表格311中,可支持的关键字都被定义了。图4所示的权标发生器312通过使用如下权标表格311从文件中提取权标。
在初始状态,从权标″<!--″中识别注释的开始,并且读取该权标(图7的601)。注释分析器410读取标志中的全部内容,直到出现权标″-->″,然后忽略该读取内容(图7的602和603)。
然后,如果读取了在权标″<″之后定义的要素,标志开始分析器420读取标志中的内容直到出现权标″>″或″/>″。语法分析器320解析并且存储该读取内容(图7的604-607)。
当在初始状态中出现空格符的时候,忽略该空格符(图7的602和603)。然后,如果读取了不是在权标″<″之后定义的要素,标志开始分析器420读取标志中的内容直到出现权标″>″或″/>″,并且不处理读取内容。然后,终端返回初始状态(图7的步骤615)。
如果读取权标是被分析的字符数据,数据分析器450解析数据的内容,并且将GUI相关的信息存储在内容上(图7的611和612)。
在如上所述具有以下形式的步骤中,将信息从词分析器310发送到语法分析器320。语法分析器320的XML检验器322和基于GUI的对象发生器323根据文件的DTD,通过内容模型分析语法,根据终端210的GUI组成一个基于树的对象,并且将该基于树的对象提供给交付的编辑器。
<HDML>
<DISPLAY>
<ACTIONTYPE=ACCEPTLEVEL=″Done″>
       You just won the lottery!
</DISPLAY>
</HDML>
在此,在文件内容模型321中定义在HDML和DISPLAY之间的属性和级别结构。如果使用文件内容模型321分析从词分析器310发送的信息的语法,将发现级别结构是″HDML″->″DISPLAY″->″You justwon the lottery!″″
因此,根据本发明如上所述的实施例的分析系统214,就是说,词分析器310和语法分析器320分析提供给终端210的文件,而不考虑文件类型,以便用户通过终端210的应用程序浏览文件。
如上所述的例子仅是根据本发明的分析基于网络文件的要素的系统和方法的实施例。虽然在此本发明已经参考它的最佳实施例进行了说明和示出,对本领域的普通技术人员来讲在没有脱离本发明的精神和范围的情况下可以进行多种修改和变化。因此,本发明试图覆盖这些修改和变化,这些修改和变化都被归入所附权利要求和它们的等效范围之内。
工业实用性
如上所述,根据本发明的实施例,当在手持终端中安装了集成分析器的时候,可以使用传统的网络站点。此外,可以仅提取终端的应用程序所必需的信息。
此外,根据本发明,因为因特网服务提供者不必为每个终端构造特定的网络站点,可以节省时间和成本。

Claims (29)

1.一种用于分析基于要素的网络-文件的系统,当系统调用网络-文件的时候将该系统提供给手持终端的应用程序,以将它提供给手持终端,该系统包括:
词分析器,其用于通过参考支持的多种文件所必须的全部标志数据的权标表格,来根据标志和非标志分离权标;和
语法分析器,其用于根据每个文件的文件类型定义DTD分析内容模型,根据分析该内容模型的结果分析每个语法,并且根据终端的图形用户接口GUI产生基于树的对象。
2.如权利要求1所述的系统,其中,所述的词分析器包括:
注释分析器,其用于处理注释和空格符;
标志开始分析器,其用于识别标志开始标记并且产生权标;
属性分析器,其用于分析属性并且产生权标;和
被分析字符数据解析器,其用于解析被分析的字符数据并产生权标。
3.如权利要求1所述的系统,其中,所述的语法分析器包括:
XML检验器,其用于根据由词分析器产生的权标,检验组成的相应文件是否适合于每个DTD;和
基于终端GUI的对象发生器,其用于匹配被解析的标志和终端的GUI。
4.如权利要求1到3中任何一个所述的系统,其中,所述的分析系统集成地分析根据与HTML、XHTML、mHTML、cHTML、WML和HDML相关的SGML和XML的任意一个组成的网络-文件。
5.如权利要求1到3中任何一个所述的系统,其中,所述的分析系统能被用于任意手持终端,并且根据每一个终端的规范选择被分析的要素的类型。
6.一种用于分析调用的网络-服务器的网络-文件的方法,所述的方法包括如下步骤:
(a)从网络-文件读取权标并且分析所述的权标;
(b)如果所述的权标不是定义的开始标记,或如果所述的权标是作为步骤(a)的结果的注释或空格,忽略该权标,并且当读取定义的开始标记的时候,根据该权标分析要素的属性;
(c)根据该权标分析要素的属性,存储要素的GUI相关信息,并且分析要素的内容;
(d)作为步骤(c)的结果,如果要素的内容是被分析的字符数据,存储内容的GUI相关信息,并且如果要素的内容不是被分析的字符数据,读取数据直到出现结束标记;和
(e)如果要素的内容不是被分析的字符数据,如果出现了与定义的开始标记对应的结束标记,则终止,并且如果没有出现结束标记,则忽略并且返回,
7.如权利要求6所述的方法,其中,该步骤(c)包括如下步骤:
如果读取的权标不包括定义的开始标记,连续地读取该数据直到出现结束标记,从而忽略权标;并且
读取新权标。
8.一种用于存储程序的记录介质,该程序用于分析调用的网络-服务器的网络-文件,所述的记录介质由计算机读取,所述的程序包括如下功能:
(a)从网络-文件读取权标并且分析所述的权标;
(b)如果所述的权标不是定义的开始标记或如果作为功能(a)的结果所述的权标是注释或空格,忽略该权标,并且当读取定义的开始标记的时候,分析来自该权标的要素的属性;
(c)根据该权标分析要素的属性,存储要素的GUI相关信息,并且分析要素的内容;
(d)如果作为步骤(c)的结果要素的内容是被分析的字符数据,存储内容的GUI相关信息,并且如果要素的内容不是被分析的字符数据,读出数据直到出现结束标记;和
(e)如果要素的内容不是被分析的字符数据,如果出现了与定义的开始标记对应的结束标记,则终止,并且如果没有出现结束标记,则忽略并且返回。
9.一种用于分析基于要素的网络-文件以将它的内容提供给手持终端的系统,其包括:
词分析器,其用于通过参考权标表格提取和分离表示被提供的网络-文件的权标,而不考虑用于组成网络-文件的标志语言的类型;和
语法分析器,其用于根据内容模型分析由词分析器提取和分离的权标,并且产生基于终端的GUI的对象。
10.如权利要求9所述的系统,其中,所述的权标表格包括:
在XML文件中定义的权标;
用于提供给手持终端的全部文件的在DTD中定义的关键字;和
可以由每个终端支持的要素的列表。
11.如权利要求9所述的系统,其中,所述的词分析器包括:
注释分析器,其用于识别注释或空格符,并产生权标;
标记开始分析器,其用于识别标志开始标记并产生权标;
属性分析器,其用于分析属性并产生权标;和
被分析字符数据解析器,其用于解析被分析的字符数据并产生权标。
12.如权利要求9所述的系统,其中,该词分析器包括权标发生器和XML符号语法规则检验器,其一个字符一个字符地接收提供的文件,根据权标表格识别文件的权标,并且通过使用权标发生器和XML符号语法规则检验器提取权标。
13.如权利要求9所述的系统,其中,所述的内容模型是指要素的级别和属性表,并且是在DTD中定义的用于提供给手持终端的全部文件的。
14.如权利要求9所述的系统,其中,所述的语法分析器包括:
XML检验器,其用于根据由词分析器提取和分离的权标,检验组成的网络-文件是否适合于提供的每个DTD;和
基于GUI的对象发生器,其用于匹配被分析的语法和终端的GUI。
15.一种用于分析基于要素的网络-文件的系统,其包括:
权标表格,其包括在XML文件中定义的权标,在用于提供给手持终端的文件的文件类型定义DTD中定义的关键字,和可以由每个终端支持的要素的列表;
词分析器,其用于通过参考权标表格提取和分离表示提供给终端的网络-文件的权标,而不考虑用于组成网络—文件的标志语言的类型;
内容模型,其由DTD对于所有提供给终端的文件确定,并且所述的内容模型包括要素级别和属性表;和
语法分析器,其用于根据内容模型分析由词分析器提取和分离的权标,并且通过被分析的语法产生基于终端的GUI的对象。
16.如权利要求15所述的系统,其中,所述的词分析器包括:
注释分析器,其用于识别注释或空格符并且产生权标;
标记开始分析器,其用于识别标志开始标记并产生权标;
属性分析器,其用于分析属性并产生权标;和
被分析字符数据解析器,其用于解析被分析字符数据并产生权标。
17.如权利要求15所述的系统,其中,该词分析器包括权标发生器和XML符号语法规则检验器,其一个字符一个字符地接收提供的文件,根据权标表格识别文件的权标,并且通过使用权标发生器和XML符号语法规则检验器提取权标。
18.如权利要求15所述的系统,其中,所述的语法分析器包括:
XML检验器,其用于根据由词分析器提取和分离的权标,检验组成的网络-文件是否适合于提供的每个DTD;并且
基于GUI的对象发生器,其用于匹配被分析的语法和终端的GUI。
19.一种手持终端,其包括:
集成分析器,其用于分析由从网络-服务器提供的预先确定的标志语言组成的网络-文件;
存储器,其用于存储通过集成分析器分析的信息;以及
应用程序,其使用从集成分析器提取的信息。
20.一种手持终端,其包括天线、CPU、外围电路、语音编码器、存储器和音频编解码器,其中所述的存储器包括:
集成分析器,其用于调用来自于网络-服务器的网络-文件而不考虑用于组成网络-文件的标志语言,并且根据要素分析网络-文件;和
应用程序,其使用从集成分析器提取的信息。
21.如权利要求19或20所述的手持终端,其中,所述的集成分析器包括:
权标表格,其包括在XML文件中定义的权标,在用于提供给手持终端的所有文件的DTD中定义的关键字,和可以由每一个手持终端支持的要素列表;
词分析器,其用于通过参考权标表格提取和分离提供给终端的网络-文件的全部权标,而不考虑用于组成网络-文件的标志语言的类型;
内容模型,其在用于提供给终端的全部文件的DTD中定义,并且意味着要素级别和属性表;和
语法分析器,其用于根据内容模型分析由词分析器提取和分离的权标,并且通过被分析的语法产生基于终端的GUI的对象。
22.如权利要求21所述的系统,其中,所述的词分析器包括:
注释分析器,其用于识别注释或空格符并且产生权标;
标记开始分析器,其用于识别标志开始标记并产生权标;
属性分析器,其用于分析属性并产生权标;和
被分析字符数据解析器,其用于解析被分析的字符数据并产生权标。
23.如权利要求21所述的系统,其中,所述词分析器包括权标发生器和XML符号语法规则检验器,其一个字符一个字符地接收提供的文件,根据权标表格识别文件的权标,并且通过使用权标发生器和XML符号语法规则检验器提取权标。
24.如权利要求21所述的系统,其中,所述语法分析器包括:
XML检验器,其用于根据由词分析器提取和分离的权标,检验组成的网络-文件是否适合于提供的每个DTD;和
基于GUI的对象发生器,其用于匹配被分析的语法和终端的GUI。
25.如权利要求19或20的手持终端,其中,所述应用程序包括基于手持终端的GUI的对象。
26.一种用于分析来自于网络-服务器的网络-文件的方法,所述网络-文件由预先确定的标志语言组成,该方法包括如下步骤:
(a)通过参考权标表格从网络-文件读取权标,提取和分离该权标;
(b)如果提取和分离的权标不是定义的开始标记,或如果该权标是注释或空格符,则忽略该权标;
(c)当提取和分离的权标被识别为定义的开始标记的时候,根据该权标分析要素的属性并且存储要素的GUI相关信息;
(d)在分析要素的属性之后分析要素的内容;
(e)作为步骤(d)的结果,如果要素的内容是被分析的字符数据,存储内容的GUI相关信息,并且如果要素的内容不是被分析的字符数据,确定是否出现结束标记;
(f)作为步骤(e)的结果,如果不出现结束标记,从步骤(a)开始重复,并且如果出现了结束标记,确定结束标记是否对应于定义的开始标记;并且
(h)作为步骤(f)的结果,如果结束标记对应于定义的开始标记,则终止,否则,则忽略并返回。
27.如权利要求26所述的方法,其中,该步骤(c)包括如下步骤:
如果提取和分离的权标不包括定义的开始标记,连续地读取数据直到出现结束标记,从而忽略该权标;并
读取新权标。
28.一种手持终端,其包括:
集成分析器,其用于分析根据要素由多个预先确定的标志语言组成的网络-文件;
存储器,其用于存储通过集成分析器分析的信息;并且
应用程序,其使用从集成分析器提取的信息。
29.一种系统,其包括:
内容供应商,配置其以提供使用第一标志语言的第一类型文件,和使用不同于第一标志语言的第二标志语言的第二类型文件;以及
手持终端,其从内容供应商接收第一和第二类型文件,其中该手持终端包括,
集成分析器,配置其以根据要素分析第一类型文件和第二类型文件,以提取它的信息,和
应用程序,配置其以从集成分析器接收提取的信息。
CNB2003801077941A 2002-11-26 2003-11-26 基于要素的多个文件的分析系统和方法 Expired - Fee Related CN100550007C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2002-0074009A KR100483497B1 (ko) 2002-11-26 2002-11-26 엘리먼트 기반 웹 문서의 파싱시스템 및 그 방법
KR1020020074009 2002-11-26

Publications (2)

Publication Number Publication Date
CN1732461A true CN1732461A (zh) 2006-02-08
CN100550007C CN100550007C (zh) 2009-10-14

Family

ID=36387680

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2003801077941A Expired - Fee Related CN100550007C (zh) 2002-11-26 2003-11-26 基于要素的多个文件的分析系统和方法

Country Status (6)

Country Link
US (1) US20060106837A1 (zh)
EP (1) EP1570379A4 (zh)
KR (1) KR100483497B1 (zh)
CN (1) CN100550007C (zh)
AU (1) AU2003284768A1 (zh)
WO (1) WO2004049194A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102647458A (zh) * 2012-03-28 2012-08-22 成都立方体科技有限公司 在b/s结构手机移动办公系统中显示多种文件的方法
CN103870487A (zh) * 2012-12-13 2014-06-18 腾讯科技(深圳)有限公司 网页文件处理方法及移动终端

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100564767B1 (ko) * 2003-12-26 2006-03-27 한국전자통신연구원 Xml처리 장치 및 이를 적용한 시스템의 xml 처리 방법
US7287217B2 (en) * 2004-01-13 2007-10-23 International Business Machines Corporation Method and apparatus for processing markup language information
US7954051B2 (en) * 2004-01-13 2011-05-31 International Business Machines Corporation Methods and apparatus for converting markup language data to an intermediate representation
JP2005234915A (ja) * 2004-02-20 2005-09-02 Brother Ind Ltd データ処理装置及びデータ処理プログラム
KR100597666B1 (ko) * 2005-01-31 2006-07-10 주식회사 네오엠텔 무선 인터넷 문서의 브라우징 방법 및 그 방법이 구현된무선 인터넷 단말 장치
US7877383B2 (en) * 2005-04-27 2011-01-25 Microsoft Corporation Ranking and accessing definitions of terms
US7620540B2 (en) * 2005-04-29 2009-11-17 Research In Motion Limited Method for generating text in a handheld electronic device and a handheld electronic device incorporating the same
US8788523B2 (en) * 2008-01-15 2014-07-22 Thomson Reuters Global Resources Systems, methods and software for processing phrases and clauses in legal documents
US8595263B2 (en) * 2008-06-02 2013-11-26 Microsoft Corporation Processing identity constraints in a data store
JP5539974B2 (ja) * 2008-06-18 2014-07-02 トムソン ライセンシング デジタル文書の表示およびその文書内のナビゲーションのためにその文書を前処理する方法
US8838626B2 (en) * 2009-12-17 2014-09-16 Intel Corporation Event-level parallel methods and apparatus for XML parsing
US9471653B2 (en) * 2011-10-26 2016-10-18 International Business Machines Corporation Intermediate data format for database population
US20130254553A1 (en) * 2012-03-24 2013-09-26 Paul L. Greene Digital data authentication and security system
US9922089B2 (en) 2012-07-18 2018-03-20 Software Ag Usa, Inc. Systems and/or methods for caching XML information sets with delayed node instantiation
US10515141B2 (en) * 2012-07-18 2019-12-24 Software Ag Usa, Inc. Systems and/or methods for delayed encoding of XML information sets
US9898523B2 (en) 2013-04-22 2018-02-20 Abb Research Ltd. Tabular data parsing in document(s)
CN104182396B (zh) * 2013-05-21 2017-12-05 北大方正集团有限公司 终端、版式文档内容描述优化装置和方法
US10198583B2 (en) * 2013-11-26 2019-02-05 Sap Se Data field mapping and data anonymization
JP6784084B2 (ja) * 2016-07-27 2020-11-11 富士通株式会社 符号化プログラム、符号化装置、符号化方法、及び検索方法
KR101880507B1 (ko) * 2017-04-21 2018-07-20 주식회사 한글과컴퓨터 웹 문서에 삽입된 도형의 크기 조정을 지원하는 클라이언트 단말 장치 및 그 동작 방법
KR101809457B1 (ko) * 2017-04-21 2017-12-15 주식회사 한글과컴퓨터 웹 문서의 편집을 지원하는 클라이언트 단말 장치 및 그 동작 방법
KR101880508B1 (ko) * 2017-04-27 2018-07-20 주식회사 한글과컴퓨터 웹 문서에서 목록 생성을 지원하는 웹 문서 편집 지원 장치 및 방법
US11537797B2 (en) * 2017-12-25 2022-12-27 Koninklijke Philips N.V. Hierarchical entity recognition and semantic modeling framework for information extraction
KR101991297B1 (ko) * 2018-04-16 2019-06-20 주식회사 한글과컴퓨터 문서 편집 인터페이스의 커스터마이징을 지원하는 웹 기반의 문서 편집 지원 장치 및 그 동작 방법

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010042081A1 (en) * 1997-12-19 2001-11-15 Ian Alexander Macfarlane Markup language paring for documents
JP3623715B2 (ja) * 2000-04-07 2005-02-23 日本電気株式会社 通信端末装置
US7702995B2 (en) * 2000-04-24 2010-04-20 TVWorks, LLC. Method and system for transforming content for execution on multiple platforms
JP2001325248A (ja) * 2000-05-17 2001-11-22 Fuji Xerox Co Ltd 文書データ処理装置
EP1428348B1 (en) * 2000-12-22 2011-01-26 Research In Motion Limited Information browser system and method for a wireless communication device
KR100411884B1 (ko) * 2000-12-27 2003-12-24 한국전자통신연구원 엑스엠엘 시스템과 비-엑스엠엘 시스템간의 데이터 전달을위한 아답터 장치 및 그를 이용한 데이터 전달 방법
US7546298B2 (en) * 2001-01-09 2009-06-09 Nextair Corporation Software, devices and methods facilitating execution of server-side applications at mobile devices
US20020107881A1 (en) * 2001-02-02 2002-08-08 Patel Ketan C. Markup language encapsulation
US20040054535A1 (en) * 2001-10-22 2004-03-18 Mackie Andrew William System and method of processing structured text for text-to-speech synthesis
US6880125B2 (en) * 2002-02-21 2005-04-12 Bea Systems, Inc. System and method for XML parsing
US20030184552A1 (en) * 2002-03-26 2003-10-02 Sanja Chadha Apparatus and method for graphics display system for markup languages
JP2005088239A (ja) * 2003-09-12 2005-04-07 Brother Ind Ltd 電子機器

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102647458A (zh) * 2012-03-28 2012-08-22 成都立方体科技有限公司 在b/s结构手机移动办公系统中显示多种文件的方法
CN103870487A (zh) * 2012-12-13 2014-06-18 腾讯科技(深圳)有限公司 网页文件处理方法及移动终端
CN103870487B (zh) * 2012-12-13 2017-07-25 腾讯科技(深圳)有限公司 网页文件处理方法及移动终端
US10037387B2 (en) 2012-12-13 2018-07-31 Tencent Technology (Shenzhen) Company Limited Method and apparatus for processing a webpage
US10552508B2 (en) 2012-12-13 2020-02-04 Tencent Technology (Shenzhen) Company Limited Method and apparatus for processing a webpage

Also Published As

Publication number Publication date
EP1570379A4 (en) 2010-04-28
CN100550007C (zh) 2009-10-14
KR100483497B1 (ko) 2005-04-15
US20060106837A1 (en) 2006-05-18
WO2004049194A1 (en) 2004-06-10
AU2003284768A1 (en) 2004-06-18
EP1570379A1 (en) 2005-09-07
KR20040046171A (ko) 2004-06-05

Similar Documents

Publication Publication Date Title
CN1732461A (zh) 基于要素的多个文件的分析系统和方法
US20160342578A1 (en) Systems, Methods, and Media for Generating Structured Documents
US7373300B1 (en) System and method of providing a spoken dialog interface to a website
CN1688999A (zh) 根据书写文本进行基于可缩放神经网络的语言识别
WO2000020985A9 (en) Conversion of data representing a document to other formats for manipulation and display
CN101055578A (zh) 基于规则的文档内容挖掘器
CN101055577A (zh) 可扩展标记语言集中器
CN1677435A (zh) 图像处理装置、图像处理方法和存储相关程序的存储介质
CN101075320A (zh) 信息发布、查询系统和方法
CN102402432A (zh) 用于产生多国语言网页的方法
CN1808377A (zh) 由非专属语言驱动的通用序列图生成器
CN1799020A (zh) 信息处理方法和设备
US20070150494A1 (en) Method for transformation of an extensible markup language vocabulary to a generic document structure format
CN110232921A (zh) 基于生活服务的语音操作方法、装置、智能电视及系统
CN1879149A (zh) 音频对话系统和语音浏览方法
US9286272B2 (en) Method for transformation of an extensible markup language vocabulary to a generic document structure format
CN112463152A (zh) 一种基于ast的网页适配方法及装置
CN102577334A (zh) 用于自动预测性选择网络浏览器的输入法的方法和装置
CN100347706C (zh) 一种pdf文档到xml文档转换的方法
CN104216868B (zh) 一种文档显示格式的适配方法及装置
RU2631975C2 (ru) Способ и система для обработки входных команд пользователя
CN101075238A (zh) 一种多媒体文件搜索引擎的排序方法
US20230351110A1 (en) Text recognition method and apparatus, computer-readable storage medium and electronic device
CN1592280A (zh) 用于网页概括的网关
CN1612524A (zh) 信息处理方法和信息处理装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20091014

Termination date: 20111126