TW310400B - - Google Patents

Download PDF

Info

Publication number
TW310400B
TW310400B TW082102915A TW82102915A TW310400B TW 310400 B TW310400 B TW 310400B TW 082102915 A TW082102915 A TW 082102915A TW 82102915 A TW82102915 A TW 82102915A TW 310400 B TW310400 B TW 310400B
Authority
TW
Taiwan
Prior art keywords
character
word
language
characters
compound
Prior art date
Application number
TW082102915A
Other languages
English (en)
Original Assignee
Sun Microsystems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Microsystems Inc filed Critical Sun Microsystems Inc
Application granted granted Critical
Publication of TW310400B publication Critical patent/TW310400B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

310400 經濟部中央標準局R工消費合作社印製 A6 B6_ 五、發明説明(1 ) 琎昍背蜃 本專利文件之揭示之一部份包含得受版權保護之材料。 販權所有人並不反對當此専利文件出現於專利與商檷局之 専利楢案或記錄時由専利文件或專利揭示之任何人之傅輿 複製,但其它方面絕對保留所有之版榷播利一尤特別當其 相醑於揭示之電腦程式、列表、或說明時。 發明鮪圈 本發明係闢於使用本文存儲與檢索技術之電腦糸統之範 園。較特定者,本發明係Μ於用於經設計K英文字母為中 心之糸統Κ存觭與檢索非英文語言之技術使用。 背鲁 目前,文件檢索系統,或自動化本文處理糸统乃為主要 之應用於若干電腦糸铳。此即為各棰形式之本文係Μ電腦 記憶器或存儲空間之某形式存儲之糸统•且可由用戶作有 效之近接並可迅速自記憶器或存儲裝置檢索。 目前正由若干罨腦系統所使用之此存儲空間之一種類型 乃為雷射碟片。唯請記憶器(CD-ROM) 。CD-ROM為磁碟文 件可包含數百萬之資料字元於單一碟片。 一種用Μ謓取此CD-ROM及自該型之資料庫檢索資料之软 賭糸統之類型稱之為Answer Book TM系统由Sun Μ ί c r o s y s t e m s 公司所開發。(A n s w e r Β ο o k 為 S u η Microsystems公司之商標)。一如其它此類糸統然* Answer Book提供實施超過16,000頁次文件之全本文査尋( 有時稱之為"内容為基礎之檢索〃> 之能力,此種査尋允 (請先Μ讀背面之注意事項再f本頁)
-N .丨裝. 訂· •線. 本紙張尺度適用中國國家標準(CNS)甲4規格(210 X 297公釐) 82.3. 40,000 310400 經濟部中央標準局w工消费合作社印製 A6 B6 五、發明説明(2 ) 許用戶_入宇或片語或句(亦即,字元串)並要求本文檢 索糸統尋求存緘之本文有闞艙入之字或字元串之取樣,而 迅速顯示諸取樣。 當文件存儲於CD-ROM或其它存皤裝置時,典型上文件係 Μ美圃檷準資訊交換碼ASCII (American Standard Code for Information Interchange) 8 —位元格式編碼 作為本文字元而存儲。由於英文字母僅包含26字元,K及 由於數字加上普通標點符號與特殊字元雄共不少於256不 同之字元,故諸宇元之二進制表示法乃缠合一 8位元位元 姐之電腦資料(28 = 256)。 一些非英文語言具若干超過256字元於其語言中;例如 ,日文語言需超過8,000字元之字元姐。由於此一數字不 能容納於8 —位元(1位元組)數字之範画Κ内,故多位 元姐字元必須用Μ說明電腦之日本字元組。结果,由於大 多數自動化本文處理糸統不能顯示或近接多位元姐本文之 文件,故現行自動化本文處理系統與現有CD-ROM本文資料 庫尚不可用於具超過256字元於其字母之曰文或其它語言 〇 雖則已在作成若干進展K標準化世界語言之代碼姐从及 使用此等世界代碼組開發電腦應用,然一般仍有必要重寫 英文語言為基礎之應用程式之本身以便使用具諸如日文之 另-J語言之程式。於若干事例中此類重寫之費用至為嚇人 。本發明利用另一*交替計削以在不必要將其重寫之情況下 藉轉換非英文字元代碼姐為Ascil格式之新穎技術而使用 -4 - 本紙張尺度適用中國國家標準(CNS)甲4规格(210 X 297公釐) 82.3. 40,000 ---------------γ j------裝------訂----線 (請先閲讀背面之注意事项再填寫本頁) 310400 A6 ___ B6__ 五、發明説明(3 ) 現行之査專輿檢索程式。 國際標準姐嫌(ISO )纆採用各種檷準钃碼計副K處理 經濟部中央標準局R工消费合作社印製 不同語言並隨時加K修改K加入較多之語言。早至19 84年 4月,全錄公司(Xerox Corporation )發行其本身之字 元代磚檷準此包含除由ISO 646所界定之拉丁字元姐K外 之希皤文。Cyril lie (俄文)、Μ及日文宇元。(有闞早 期全錄搮準請參閲 > 全錄網路糸統结構,一般資訊手冊 Xerox Network Systems architecture, General Information manual" XNSG 068504 1984年4 月,第57— 61頁)。其後,各棰日本工業標準(JIS ).代碼姐烴已界 定K及相似之標準代碼姐係由AT & T界定稱之為"擴充之 Unix代碼(EUC ) 〃係與ISO標準2022相符。最近,開放 系統基金 0 p e n S y s t e m s F 〇 u n d a t i ο η 。國際 U n i X - ϋ n i X International Μ及太平洋Unix糸统實驗室Unix Systems Laboratories Pacific同意支援擴充Unix (EUC )之日文語言以增強電腦應用之輕便性與相互操作性之前 景。此種共同定義(EUC )包含對建立於1990年之JIS X0212 補充 Kanji 。JIS X0208 補充 Kanji 。以及 JIS X0201 —位元姐Kana之日文棟準代碼姐之支援。此係說明 於標題為λ'資訊交換之日文画示字元姐之代碼Code of the Japanese Graphic Character Set for International Exchange〃之標準發行中。(UNIX® 為 UNIX系统實驗室公司之登記之商標。) 雖則此種躭關多位元姐之煸碼資訊界定字元之日文字元 82.3, 40,000 (請先聞1^面之注意事項再填寫本頁) 本紙張尺度逡用中國國家標準(CNS>甲4规格(210 X 297公後) S10400 經濟部中央標準局貝工消費合作社印褽 A6 B6__ 五、發明説明(4 ) 之檷準代碼定義對設計Μ處理單一位元姐纗碼之输入資訊 之應用巳為一問題,但寫入日文語言對本文分析程序提出 若干其它複雜之問題。其必須解決Κ便允許日文語言本文 之全本文査專之兩項重大問題乃為1)如何分開本文中之諸 字之問題(並無諸如白色空格之宇之定界標於英文本文) ;Μ及2)複合名詞必須分斷Μ改菩査尋之問題。本發明亦 提供方法以乃在ASCII為基礎之本文處理糸統之上下文Κ 内處理此類問題。巳知於早前技藝中尚無法解決此類問題 以允許使用含非英文複雜語言之現行英文為基礎之本文檢 索應用。 發明粧沭 因此,本發明之目的乃為準備由現行本文處理糸統所使 用之語言本文一於此,*語言包含超過256字元諸如中文。 曰文Μ及若干其它語言等。 本發明之進一目的乃為準備由本文處理糸統所使用之語 言本文作為査尋變元Κ査尋此種語言本文之資料庫。 本發明之另一目的乃為準備日文語言本文以用於現行 ASCII為基礎之本文處理糸铳。 在本發明之影響下,此類與其它目的係藉準備由現行本 文處理糸統所使用之語言本文之方法與裝置而達成一於此 ,語言包含超過256字元。此乃藉捕獲表示給定語言之输 入字元流。分開此输入字元流為字組。映射此字姐為唯一 單位元姐字元串而完成,从傳遞至選擇之本文處理糸铳供 將來之處理。 {請先5讀背面之注意事項#填寫本頁) Ϊ .裝· 訂 •線. 本紙張尺度適用中國國家標準(CNS)甲4规格(210 X 2耵公货) 82.3. 40,000 經濟部中央標準局R工消費合作社印製 A6 ______B6__ 五、發明説明(5 ) 本發明提供使用選出語言之文法規則之能力以雜別宇組 ,並進而提供分開複合字為其構成之簡單字部分之櫬_。 對在此該語言為日文之特定情況而言,較佳具體實施例 準備日文本文Μ藉由使用產生兩位元姐十六進制字元之擴 充之UNIX代碼(EUC )編碼日文字元而由現行本文處理系 統加K處理。而後,此十六進制字元流乃藉首先確認各字 元代碼是否靥於或為Kanji 、Katakana或為Hiragana字元 姐;Μ及其次藉施加一般文法規則名詞與其它重要字(係 Kanji或Katakajia類型)通常繼之Μ—前置詞( Hiragana類型)而分開為諸字。複合字係藉使用複合字檢 査表而分斷為其簡單之字部分。十六進制字元串而後經映 射為單位元姐ASCII字元串Μ供最終之傳输至本文處理糸 統。 附圖之說明 本發明系統之諸目的、特徴與優點可自Μ下之說明而一 目了然*其中: 圖1列示當前編碼表之一部份,示某些表意圖文對其 JIS與EUC代碼之闞係(早前技藝): 圖2列示英文字或日文(Roma nji )字為十六進制(u hex ")及自hex為ASCII之一般映射; 圖3為現行ASCII轤入査尋與檢索糸統(早前技藝)之 方塊圖; 圖4為示本發明之査尋與檢索糸統之概略圖;Μ及 圖5為本發明之詳细圖。 (請先閲面之注$項再$本頁) |裝_ 訂· 線· 本紙張尺度適用中國國家镖準(CNS)甲4规格(210 X 297公釐〉 82.3. 40,000 S1C400 Α6 Β6 經濟部中央標準局Η工消費合作社印製 五、發明説明(6 ) «念班涵營 Μ下之詳细說明悉依執行於霣腦或電腦網路之制定程序 而里現。此等程序性之說明與表示法係由精於此藝者所使 用之工具,以最有效傳送具工作上之實物至其它精於此藝 者0 程序於此一且通常一經想像為導致期望結果之前後一貢 之序列步驟。此類步》乃為那些箱實體數量之實體埋用者 。通常一雖非必然一諸數量係採取能Μ纆存儲、傳输、姐 合、比較、Μ及要不然經運用之電或磁信號之形式。有時 ,其證明為便利一主要為共同使用之理由一於述及此等信 號為位元、數值、元件、符號、字元、名詞、數字等。然 而,應行注意者即所有上述與相似之名詞均配合適當之實 雅數量且僅為懕用於此類數量之便利之檷號。 再則,所實施之浬用恆Μ通常配合由操作人員所賁施之 心智操作之諸如加入或比較之詞類述及。於形成本發明之 一部分於此說明之任何操作中,並無操作人員之此種能力 _或於大多數情況中為期望一之必要;操作係靥機器操作 一實施本發明操作之有用之機器包含一般目的之數位電腦 或相似之裝置。 本發明亦相瞄於實施此類操作之裝置。此裝置經特別结 構Κ供所需之目的或其包含一般目的之電腦由存儲於電腦 中之電腦程式Μ選擇性啟動或重姐態。在此所呈現之程序 並非固有相關於特定之電腦或其它裝置。各種一般目的之 機器均可Κ根據在此之教學所寫入之程式使用,或其可證 (請先MtKP®之注意事項再Ϊ本頁) -丨裝· 訂 .線· 本紙張尺度適用中國國家標準(CNS)甲4规格(210 X 297公* > 82.3. 40,000 A6 B6 經濟部中央揉準局貝工消费合作社印製 五、發明説明(7 ) 明更較便利Μ结構更特定之裝置Μ實施所需之方法步驟。 若干此類機器所需之结構乃自給定之說明出現。 齡住里Μ窨觖剜之舱明 宙荛 IDEOGRAM—表意圓文* 一種不必為其表達特定之字或片 語而表示觀念或物件之字元或符號,如於日文或中文中之 字元。 R0MANJI——棰日文之字或句之語言學之字母表示法。 HIROG ANA—三組日文字元之一姐,係主要用K說明日文 之名稱與地點。此字元姐通常用作前置詞以 及字尾。 KATAKANA—(或簡稱KAHA)—三姐日文字元之另一姐, 主要用以音拼西方之名稱與地點。 KANJI 一日文表意圖文之一形式*最常用於名詞K及 動詞與形容詞之字根。此為三日文字元組之 最大之一組且係基於中文之表意圖文。 說明 本發明為準備非英文類型語言之裝置與方法。於此,語 言具超過256字元一 Μ用於現行本文之處理系统。此係藉 捕獲表示語言之字元流•映射字元串為宇姐(亦即·"諸 字〃),分斷複合字為其基本字部分* Μ及映射此諸字為 唯一之ASCII字元串而完成,以用於英文一字母一為基礎 之自動本文處理糸統。本發明因而提供實用之方法以使用 含非英文語言之現行之ASCII為基礎之本文査尋與檢索糸 (請先閲讀背面之注$項再f衣頁) • V - -—装. 訂· .線· 本紙張尺度適用中國國家標準(CNS)甲4规格(210 X 297公釐) 82.3. 40,000 310400 «濟部中央標準局貝工消费合作社印製 A6 B6 五、發明説明(8) 铳•例如,一種使用諸如日文、中文等之表意圖文之語言 之糸統。 於本發明中,使用多位元姐字元於ASCII (單位元姐) 遇通之問埋係經由簡單但有效之映射技術而解決。日文之 表意圔文係藉諸如ISO 、JIS 、EUC等之各種編碼計副而 列舉(亦即,一數字供各個別之表意画文)。表示之數字 可經編碼為8 —位元位元姐或16位元。亦即,日文表意圓 文之數字( 8000 +)少於21β = 65536 。此2—位元姐數字 可編碼於十六進制(* hex ")形式,因hex為一Κ 16為 基數之編碼計麵。圓1示一表係指示17項不同表意圔文之 同一日文表意圓文之三種不同之鑷碼計劃。日本工業檷準 JIS X0208-1990 (第10列),S-JIS代碼(一種交替之日 本標準代碼組)(第30列)· K及擴充之Unix代碼(EUC )(第20列)。整個代碼姐可於官方檷準之發行中找出。 於本發明之較佳具體實施例中·,係使用示於檷號為>EUC "列之代碼。此十六進制形式允許日文字元自兩位元姐表 示法映射至單位元姐ASCII串表示法。此技術對例如一如 日文之諸語言之作用至為良好*於此,語言之表意圖文通 常包含一如英文字之固有之意義。於較佳之具體實施例中 •曰文係賴映射於其EUC十六進制形式之一日文表意圖文 (此係由四字母數字式字元所表示之兩十六進制位元姐) 為唯一ASCII 、、字"串(此為四ASCII位元姐逐一為各對 應之字母數字之宇元)而映射為英文。 現參考圖2,通常列示映射技術。例如,於英文中,數 -l〇- 本紙張尺度適用中國因家標準(CNS)甲4規格(210 X 297公* ) 82.3. 40,000 -裝------訂----「線 (請先聞讀背面之注意項再填寫本頁) A6 經濟部中央棣毕居S工消费合作社印製 B6_ 五、發明説明(9 ) 字"一"锂表示為數字62。數字々可由十六進 制代碼> 31〃 64表示。藉使用更較完全說明於下之本發明 之技術,此十六進制代碼>31〃可傅繹為ASCII代碼串w 31# 65,此係由八進制代碼'' 063 061 " 66而表示於轚腦 〇 同樣,於日文中•數字 > —〃係以羅馬字元(Rouanji )表示為、、ichi〃 74。Ichi可由十六進制代碼vboec" 76M EUC標準代碼表示之。藉本發明之技術映射十六進制 代碼'"boec〃 76為ASCII串'"boec〃 77導致八進制代碼、、 142 062 145 143 " 78之串。因此,一如十六進制串、、 31〃為表示數字*1〃之唯一字元串然,十六進制串、、 boec〃亦為表示日文數字一(ichi)之唯一字元串。加之 *本質上由於日文為表意圖文,一給定之符號能表示完整 之意念或字。因此,大多數之日文符號與對應之Roma nji 字可由四ASCII字元串表示之。此種映射唯一十六進制串 (於此實例中為'' boec")為ASCII字元之唯一串(、' b n '' 〇 " '' e " 、、c 〃)之能力,即為允許使用由如此非 英文諝言之現行ASCII為基礎之本文檢索系统之装置。應 行領略者即雖則較佳具體實施例係使用日文語言K及EUC 代碼姐,然其它代碼姐亦可同樣K日文或其它語言使用。 分開字於諸如日文中字元串以内之問題通常需全自然語 言之分析程序Μ供完全之解決方案。然而,就一般名詞而 言,日文句可藉識別究竟何、、字元姐〃係用於為各兩位元 姐表示法而槪略分斷為字。例如,Kanji字元姐係用於大 (請先wf面之注意事項再填寫本頁) i裝. 訂_ •線· -11 - 本纸張尺度適用中國國家標準(CNS)甲4规格(210 X 297公货)~~ 82.3. 40,000 A6 B6 經濟部中央標準局β工消费合作社印製 五、發明説明(10) 多數名詞、勖詞宇根、以及某些形容詞與副詞。 Hiragana主要用於前置飼、字之抑揚/頓挫之字尾。K及 某些形詞與副詞。Katakana則係用於外來名詞。 此外,於典型之日文害^句中,名詞乃伴K前置詞(* PP")以說明其 '"類別〃諸如主、從、時間、地點等。此 结構看似有如Μ下: 、、_Ν+ΡΡΛ + '' N0UN+ + ^ HOUN + ??f, + ''VERB" (名詞+ PP" +名詞+ PP" +、、名詞+ PP* +、、動詞 為列亦·此等特徵係如何用K織別個別之字起見,考成Μ 下之實例。一输入至存儲裝置與檢索糸統之一行日文本文 之十六進制字元串可能看Μ如此: "bbe4a4cfb3aaa4c8a5eda5d6a5b9a5bf a 1b-Ca4f2a4aaa4a4a4b7a4a4a4c8bbd7a4a6" 已知日文表意圖字元為兩十六進制位元姐,字元串每次 Μ語法分析為兩位元姐及每兩位元姐對經測試以決定是否 其為Kanji 、Katakana或Hiragana。於較佳之具體實施例 中,此易於完成,因EUC編碼計削分開字元姐。亦即· Hiragan 字經編碼為、、a4a0〃直至、、a4f3" ,Katakan 自 、、a5a0〃直至、'a5f6〃 W 及 Kanji 則自、、bOaO〃直至 f4a4〃 。如更完全解釋於下者•此種兩位元姐對隸屬何一 -12 - 本紙張尺度適用中國國家標準(CNS)甲4规格(210 X 297公釐) 82.3. 40,000 (請先聞4^面之注項再填窝表頁) i裝· 訂· .線· A6 B6 五、發明説明(11) *字元姐〃之決定係藉使用SunOS®»日文語言遇通(JLE )之C —語言功能而完成。現Μ實例繼續,整個之十六進 制字元流經初步映射如下: EUC代碼. 字元姐 .子…rRomanj'i、 bbe4 , -Kanji -watasi a4cf -Hiragana 一 ha b3aa -Kanji -kani a4c8 -Hiragana -to a5eda5d6a5b9a5bfalbc -Kntakana(x5) -robusutaa a4f2a4aaa4a4a4b7a4a4a4c8 -Hiragana (x6) -wooisiito bbd7a4a6 -Katakana+Hiragana -omou (請先面之注意事項再填寫本頁) 乂 .裝. 訂_ 經濟部中央標準局W工消费合作社印製 當各字元姐之改變已識別時,-^空格(十六進制w 20〃) 乃作為字分隔符而插入十六進制代碼流。而後包含諸如a a5eda5d6a5b9a5bfalbc〃 及、、 a4f2a4aaa4a4a4b7a4a4a4c8" Μ 及、、bbd7a4a6"之多字元 (複合字)之字〃乃藉將其與 ''複合字〃檢査表(LUT )相比較K進而加以分析。倘複合字串並未於表中發現時 則其視為一字。於Μ上之複合字串中,Hiragana宇元姐w a4f2a4aaa4a4a4b7a4a4a4a4c8〃 乃經發琨對應於·· -13 - 本紙張尺度適用中國@家標準(CNS)甲4规格(210 X 297公釐) 82.3. 40,000 線- 五、發明説明(12) A6 B6 a4f2 -Hiragana -WO a4aaa4a4a4b7a4a4 -Hiragana(x4) -oisii a4c8 -Hiragana -to 及一空格(十六進制、、20〃)乃插入於Μ上每一項之間 而後此句槪略傳譯為英文如下: vatas i ha k a n i to robusutaa wo o i s i i to omou —I我 一(前置詞) —a crab 一隻榜蟹 —a n d 和 —a lobster — 隻龍嘏 一(前置詞) —be delicious 味美 一(前置詞) —th i nk認為 ^ ;-------裝------訂----線 (請先(¾¾面之注意事项再項寫本頁) 經濟部中央標準局R工消费合作社印製 或一般而言,"我認為螃蟹和龍蝦的味道不錯。〃 因此,於本發明之較佳具體實施例中*日文句乃藉確g 諸不同之字元姐及插入空格於藉使用K上字元一姐一映射 技術而發現於諸字之間而概略分斷。此對某些字具有含糊 ,但諸字並非如名詞者其語意上之重要性。於中文、越南 文、或其它表意圖文之語言之例中,可想像一相似字之定 -14 - 本紙張尺度適用中國固家標準(CNS〉甲4规格(210 X 297公釐) 82.3/40,000 經濟部中央標準局R工消費合作社印製 A6 __·_ B6_ 五、發明説明(13) 義映射技術。 上述之複含字LUT經進而說明於下。某些日文字包合表 示一概念或事物之數種表意圈文因而形成複合字。一英文 本文之實例為複合字 ''blackwalnuttree # 倘此複合字係當一字存儲時,本文査霉"樹"、"黑〃。 或、、walnut"均不能發現此取樣。為求最佳之结果起見, 此複合字懕分隔為其組份部分: ''black walnut tree n 於本發明之較佳具艘實施例中,此問題係賴使用檢査表 (LUT ) Μ確認共同複合字元素K及當其傳通至本文存儲 與檢索糸統之索引機械時而予分開以解決。於吾人之計劃 中,此乃具以下之效應: “a5a4b8c4a9b3bld9c2e4clb2” “blackwalnuttree” 乃分開為 “a5a4b8c4,,‘‘a9b3bld9C2e4,,“clb2,,<—“biackwalnuttree” EU丁乃包含此等登鏵: a5a4b8c4 a9b3blddc2e4 clb2 一般而言,於大多數罨腦系統中,保持所有複合名詞之姐 合通常並不可行。然而,通常其羼可能者乃為限制此表之 大小以僅包含發現於諸如電腦裝備或維修手冊、睡藥文件 。政治領域等之特定應用範圍之一般複合字。於較佳具體 實施例中,語彙詞典限制於5仟數元姐,僅保有發現於特 -15 - (請先閲讀背面之注意事項再填寫本頁) •裝· 訂. ‘線_ 本紙張尺度適用中國國家標準(CNS>甲4规格(210 X 297公釐) 82.3. 40,000 ^^〇40〇 經濟部中央镖準局R工消費合作社印製 A6 B6_ 五、發明説明(14) 定懕用中諸100最常用之複合字。應由諸位精於此道者之 所瞭解者即此LUT之大小與结構可根據此概念而變動_廣 Ο 於使用另一語言之某些査專與檢索之應用中,其有期望 包含經由使用而已成為"一般〃之某些等義英文字於非英 文之本文中。因而•於本較佳具體實施例中,'"重要英文 字之等義字〃之第二檢査表(LUT )乃經掃描Μ發現任何 此等重要英文字而將其插入鄰接日文十六進制字元字之十 六進制字元流。. 加佃使用太琎明 Μ下更詳细說明本發明較佳具體實施例。藉參考圖3, 示-類如,AnswerBook產品之典型之早前技g自動化本文 處理系統*包含一文件處理器及査尋與檢索糸统其具兩主 要元件:索引機械44與査尋機械48。索引桷械44嫌取 ASCII文件並處理語意資訊為可存儲或另一方面由査尋機 械48所使用之最後格式。索引機械44之最後输入係稱之為 '''査尋索引〃 46。査尋櫬械48為一使用預編譯〃或預處 理本文資料庫並迅速找出對比至由用戶所输入之査尋變元 之元件。於一典型ASCII為基礎之自動化本文處理糸統中 ,文件本文40饋至其任務乃為準備供索引機械44之文件本 文40之過濾器42,在經處理後,索引機械44乃傳遞資料至 査尋機械48。索引機械44盼望僅見其確認之字元(亦即, 本文處理器之内部字元姐)Μ及識別作為隸屬於諸如檷題 、首部(結構性姐份)、或僅本體本文之界定之等鈒之某 (請先之注意事項再填寫本頁) •裝. 訂· 線· -16 - 本紙張尺度適用中困a家標準(CNS)甲4规格(210 X 297公釐) 82.3. 40,000 I 五、發明説明(15 ) A6 B6 些字元之某一控制字元。因而,過漶器42之任務乃為轉換 ASCII本文為索引機械44可瞭解之適當格式、及決定於输 入本文Μ内之结構性姐份、以及捨索任何不必要之制定格 式之指令。具有固有之假設即各宇係由分隔符宇元(空格 、新行、檷記)所分隔Μ允許索引機械44自字元流而 ''實 現"字。,過濾器(諸如過濾器42)通常經特別寫入至由索 引機械44所需之各格式。 現參考圖4,於本發明之較佳具體實施例中* —額外之 過濾器(a傅譯過濾器〃)52經加入於外來語言文件本文 50 (於日文之例中係於EUC形式)及索引櫬械過濾器42之 間K轉換非英文語言多位元姐字元為受索引之ASCII串。 於較佳具體實施例中•此傳譯遇濾器52係用特別%寬字元 〃函數以便處理各字元一英文與否一作為兩位元姐。傳譯 過濾器52決定字邊界、分斷任何複合字、以及在最後映射 十六進制字元流為ASCII流之前插入任何特別英文字同義 字至日文字元流,而後傅遞至"正規〃過滤器42。 一旦多位元姐字元業經由傳譯過漶器52自十六進制字元 串轉換為ASCII時,由本文處理器之處理即正常進行(亦 即,本文存儲或査尋Μ及檢索)。亦即,此時,所有结構 性資訊(諸如章節、標題等).均與英文本文者相同,故正 面 之 注
再 頁 装 訂 Ί 線 經 濟 部 中 標 消 费 合 作 社 印 製 規索引機械過濾器42可在無修改之情況下埋行。然而,倘 此结構性資訊轉換至日文(或其它語言)字元時,索引過 濾器42應行修改以確認其為结構性資料。例如,應受確認 者為,tta4a5c9c3d3a9〃而非、、章節標題"。 -17 - 本紙張尺度適用中國B家標準(CNS)甲4规格(210 X 297公釐) 82.3. 40,000 A6 B6 五、發明説明(16) 傅譯遇濾器52之操作現藉參考圖5而較更完全之說明。 於進入傳譯過漶器52時,一行於EUC形式之日文字元謫出 於82。此行之字元烴轉換至v'處理"代碼84以安置資料於 固定長度之兩位元姐形式Μ便由傳譯過濾器52程式較易於 處理。此係藉使用實腌ν'轉換多位元姐之姐至寬字元姐〃 函數之C. 一語言函數、、mbstowcs (si,s2,η) 〃而完成 。此函數轉換EUC串"s2〃為處理代碼串''si",其存儲 不超過"η 〃元件於由> si 〃指向之陣列,而倘其遭遇空 字元時則在此之前即行停止。此一實施乃為確定所有之字 元均靥相同之寬度。例如*使用一位元姐之英文ASCII字 元可與使用兩位元姐之Kanji字元相混合。此函數" mbstowcs"乃藉K0位元組填充英文宇元(及需要此英文 字元之其它字元)以使其為兩位元姐寬而分配所有之字元 至兩位元姐。例如, (請先MtFse面之注意事項再填寫本頁) 丨裝_ 訂· 宑鱅梅前 #鐮梅甾 曰文 b 0 e c bOec 英文 31 0031 「線· 經濟部中央標準局员工消费合作社印製 -18 - 本紙張尺度適用中國國家標準(CNS)甲4规格(210 X 297公货) 自此轉換之代碼串,-兩一位元組對乃經處理Μ決定其字 元姐(Kanji 、 Katakana、 Hiragana,英文或數位)86。 此係藉使用於日文JLE之資料庫之下列C —語言函數而實 施: 82.3. 40,000 A6 B6 經濟部中央揉準局8工消«-合作社印製 五、發明説明(17) i sva1pha ( ) ( 決 i sj h i ra ( ) ( 決 i s j ka ta ( ) ( 決 i s j k a n j i ( ) (決 此 程序乃經重 覆 於 其 次 兩 同 之宇元姐時 > > 白 色 空 此 -字元姐與 前 -1 字 元 姐 果 為、、Kan j i // t 而 次 則 一白色空格 乃 插 入 於 第 當 代碼行巳完 成 時 i 任 何 複 合名詞語彙 詞 字 典 檢 査 所 發現之任何 此 類 複 合 名 必 要之白色空 格 所 取 代 小 重要字之英 一 曰 文 語 彙 各 字。倘重要 英 文 字 經 發 隔 符插入緊接 同 義 曰 文 字 現 藉使用其為 除 其 印 有 語 言函數v SP r i n t f ( ) W S p r i n t f () 兩 轉 換 為 至 非實際a印 上 任 何 事 ASCI I字元Κ 準 備 印 上 字 中 •此 ASCI I 字 元 之 文 件 械 過濾器42之 输 入 ( 於 圖 定字元是否為字母) 定字元是否為hiragana) 定字元是否為Katakana) 定字元是否為Kanj i ) 一位元姐對,而倘第二姐產生不 格(十六進制"20")乃插入於 之間。例如,倘第一字元組之结 字元姐结果為—Katakana"時, 一與第二兩位元姐代碼對之間。 自此程序所產生之複合字均根據 表(LUT ) 88而測試,及於LUT 詞均Μ其對應之分隔字部分與Μ 分隔個別之字。而後糸統乃根據 詞典90核對由上述程序所識別之 現時,則其以適當之白色空格分 之字元流。此兩位元姐寬字元串 "寬字元〃外一相等於標準C 一 "之函數之C 一語言函數、、 ASCII代碼之表示法92。此函數 物而係代之Μ藉將其轉換為 元。於本發明之較佳具艄賁施例 係用作至逋合本文檢索之索引櫬 4 )。藉使用圖2中之實例,英 (請先Μ讀背面之注意事項再填窝本頁) 丨裝. 訂· •線·
本紙張尺度適用中國國家摞準(CNS)甲4规格(210 X -19 - 7公釐) 82.3. 40,000 A6 B6 烴濟部中央楳苹局s工消费合作社印製 五、發明説明(18 ) 文與日文數宇、、一〃之轉換乃進行如下: M ir_一-日文—-- 數字 =1 ichi 十六進制 =31 bOec 寬 宇元 = 0031 bOec ASCI I 八進制 =000 〇〇〇 063 061 142 060 145 143 ASCII代碼行經寫入文件94而程序經重覆96直至所有行之 本文業已處理及控制經傳输至正規過濾器(圖4中之42> Μ由ASCI I基礎之糸.統處理時為止。 於較佳具體實施例中,不論日文本文經讀出Μ供存儲或 某些日文字經输入(作為査尋變元)Μ供本文檢索’均使 用此同一過《程序。此乃允許日文用戶输入Romanji之曰 文字元於罨腦顯示器之査尋視窗•此而後轉換為通當之串 並發送至査尋機械。轉換此串回至日文字元之程式係用以 顯示査尋之结果,此將轉換回至日文宇元。 一些英文本文/十六進制字元串重疊,諸如字a face" (英文字、、face"及日文EUC代碼值=Aface")需標附 或為英文或為日文本文K協肋十六進制一串-> 日文轉換以 確知何一為英文。亦即,由字元、'a ,b ,c ,d ,e , f ,Ο — 9〃所姐成M及於EUC代碼中日文字元姐之範圍 -20 - 本紙張尺度適用中國國家標準(CNS)甲4规格(210 X 297公釐) 82.3. 40,000 (特先閲?面之注意事項再f本頁) · —裝· 訂_ .線. A6 B6 經濟部肀央標準曷具工消費合作社印製 五、發明説明(19) 以内之任何英文字,均相同於日文宇元。於較佳之具«實 施例中•日文句中之英文字乃以雙@符號加註K防止住何 此種混淆。例如,英文字'^ face〃乃註M @ @ face® @ » 懕行注意者,即於較佳具18實施例中•傳譯遇濾器52 ( 圔4)與正規索引遇濾器42係沿實行埋續統一體存在一目 前出現於一過濾器亦可能出現於另一遇濾器(及之亦然) 之程序。此悉憑實施者選擇最逋合他或她之所需而分工, 而一位精於此道者可想像各種實施以上所揭示之方法。 於本較佳具體實施例中•使用一額外之方法K自複合名 詞抽取資訊。某些査尋機械(諸如一用於AnswerBook者) 允許热知為"通配符〃之技術於査尋詢問。通配符允許插 入諸如"来〃或"!"等之特別字元Μ指示査尋機械應選 擇任何取樣*於此,額外之字元乃出現於特別字元之位置 之中或之後。此種査尋能使機械發現並非經由LUT技術分 斷而嵌入複合名詞之字。例如*査專:"333452匕5先, 將發規 a3a4b2b5 a3a4b2b5d8e3 -21 - 本紙張尺度適用中國國家標準(CNS)甲4规格(210 X 297公釐) 82.3. 40,000 (請先閲面之注意事項再塡寫本頁) 裝. 訂· 線· 經濟部中央镖準局工消费合作社印製 310400 A6 B6__ 五、發明説明(20) a3a4b2b5a4a2cdc0d0c2 等。雎則本發明業經根據本較佳具體實施例說明,然精於 此道者應認知即本發明並非侷限於經說明之具體實施例。 唯一映射其它語言之字元為十六進制宇元K分析字元串至 字之方法可易於由精於此道者所想像。本發明之方法與裝 置可Μ在所附申請專利範圍之精神與領域Μ内之修改與變 動而實施。因而,本說明乃視為列舉性而非限制本發明之 範圍。 -22 - 本紙張尺度適用中國國家標準(CNS)甲4規格(210 X 297公* ) 82.3. 40,000 ---------------^11^.------裝------訂----「線 (請先閲讀背面之注意事項再項寫本頁)

Claims (1)

  1. A8 第82102915號專利申請案 g 中文申請專利範圍修正本(86年3月) D8 . 々、申請專利範圍 1. 一種準備語言本文以由本文處理系統所使用之方法,於 (請先閲讀背面之注意事項再填寫本頁) 此,該語言包含超過256字元,該方法包含下列步驟: (a) 捕獲表示-該語言之輸入字元流; (b) 分隔該輸入字元流爲表示字之字元串;該分隔爲字 之動作係利用該語言之文法規則完成,該語言之文 法規則可用以決定於何處插入字分隔符至該字元流 以定界其構成字於該語言之該字元组,且在該輸入 字元中不需有特殊之字元以分辨一個字或字元组; (c) 映射該字元串爲唯一組之單位元組ASCII字元;以及 « (d )傳輸表示字之該唯一组之單位元组ASCII字元至該本 文處理系統以供進一步處理。 2. 根據申請專利範圍第1項之方法,更包含下列之步驟: (a)偵測該語言中之該字是否爲複合字,一複合字係包 含多於兩個位元組之字元碼之字元串; (b )將一偵測到之複合字與儲存於檢查表中之複合字比 較,該檢查表包含如該檢查表變元之複合字及如每 一變元之函數元件之變元相關複合字; 經濟部中央標隼局員工消費合作社印製 (c) 如果該複合字未見於該檢查表,則指定該複合字爲 單一字;及 -- (d) 如果該複合字位於該檢查表中,則取代位於該檢查 表中之複合字,其係相關於該複合字位置中之複合 字; 藉此,一該語言之複合字檢查表係用以使於將在該字元 流中之該等複合字中之特定字分隔爲個別之簡單字。 本紙張尺度逋用中國國家標準(CNS ) A4規格(210X297公釐) ^10400 鉍 C8 D8 六、申請專利範圍 3 .根據申請專利範圍第2項之方法,其中該語言爲曰文。 4.根據申請專利範圍第3項之方法,其中捕獲該曰文語言 至輸入字元流之步驟係藉使用其包含兩位元組十六進制 代碼爲各該日文字元之擴充之UNIX代碼(” EUC")而完 成。 · 5 ·根據申請專利範圍第4項之方法,其中該插入字分隔符 至該十六進制字元串之步驟包含以下之額外步驟: (a) 決定各該兩位元組十六進制代碼是否隸屬於Kanji、 Katakana或Hiragana字元組; (b) 插入該字分隔符之一於其隸屬於不同之該Kanji、 Katakana或Hiragana字元組代碼者之該兩位元組十六 進制代碼之任何兩相鄰者之間; (c) 識別其爲該相同之Kanji、Katakana或Hiragana字元組 之一之兩或較多該兩位元組十六進制代碼串作爲複 合字;以及 (d) 比較各該複合字與複合字檢查表中之登錄,而倘發 經濟部中央標隼局員工消費合作社印製 (請先閲讀背面之注意事項再填寫本頁) 現匹配時即行分開如由該檢查表所指示之匹配至其 結構字部分之該複合字,並插入該字分隔符之一於 各該字部分之間。 . 6. —種準備由本文處理系統所使用之語言本文之裝置,於 此,該語言包含超過256字元,該裝置包含: (a)過濾器裝置以捕獲表示該語言之輸入字元流;該語 言包含一耦合至該過濾器裝置之字過濾器,以分隔 該輸入字元流至表示字之字元串;其中該字過濾器 -2- 本紙張尺度逋用中國國家標準(CNS ) A4規格(210 X 297公釐) 經濟部中央標準局員工消費合作社印製 3l〇4〇〇 as 68 C8 _ D8 .六、申請專利範圍 包含一便於分隔該字元爲表示字元字元串之文法分 析器,其中在該輸入字元流中不需有特殊之字元以 分辨一個字或字元組,且其中字元流包含多於兩個 位元組資料之複合字; (b) 耦合至該字過濾器之映射裝置,以映射表示字之該 字元串爲唯一單位元組ASCII字元串;以及 (c) 耦合至該映射裝置之輸入裝置,以傳遞表示字之該 唯一單位元組ASCII字元串至該本文處理器。 7. 根據申請專利範圍第6項之裝置,其中該語言爲曰文。 8. 根據申請專利範圍第7項之裝置,其中表示由該過濾器 裝置所使用之該日文語言之輸入字元流係使用擴充之 UNIX代碼("EUC”)以表示該字元。 9. 根據申請專利範圍第8項之裝置,其中該字過濾器更包 含一分隔裝置以將每一複合字與第一檢查表中之登錄作 比較,該第一檢查表包含如該檢查表變元之複合字及如 每一變元之函數元件之變元相關複合字,如果該複合字 未見於該檢查表,該分隔裝置則指定該複合字爲單一 字,及如果該複合字位於該檢查表中,該分隔裝置則取 代位於該檢查表中之複合字」-其係相關於該複合字位置 中複合字" 10. 根據申請專利範圍第9項之裝置,其中該字過濾器更包 含一插入裝置,該插入裝置利用一第二檢查表將每一字 元字組與該第二檢查表中之登錄作比較以插入英文字於 該字元字組,該第二檢查表包含如該第二檢查表變元之 -3- (請先閲讀背面之注意事項再填寫本頁) 本紙張尺度逋用中國國家標準(CNS ) Μ規格(210X297公釐) JOO 經濟部中央標準局員工消費合作社印装 A8 B8 C8 D8六、申請專利範圍 字元字組及每一變元函數元件之相關英文字,且如果一 字元字組與第二檢查表中之變元相符,該插入裝置將插 入在第、二檢查表中任何相關之英文字於代表該日文字之 該字元字組中。 11. 根據申請專利範圍第7項之裝置,其中該字過濾器包 含: (a) 字元組分析程序以決定表示各該日文字元之代碼是 否隸屬於Kanji、Katakana或Hiragana字元組; (b) 耦合至該字元組分析程序之字元插入裝置,以於無 « 論何時該字元組分析程序決定該字元組已改變時即 行插入字分隔符標記於該字元代碼_,該字分隔符 標記包含一特殊字元,該字元用以插入相鄰字元代 碼串之間之字元串以表示字元组間係爲不同; (c) 耦合至該字元組分析程序之字大小分析程序裝置, 以當該字元組分析程序決定一位於兩個連續字分隔 符間之字元代碼_包含大於兩個位元組字資料時選 擇連串之該曰文字元作爲複合字;以及 (d) 耦合至該字大小分析程序之字分隔裝置以分隔該複 合字爲其結構字部分並藉連接一字分隔符標記於每 一構成字部份以標記各該字部分作爲分隔之字。 12. —種包含ACSII爲基礎之本文處理系統之電腦系統中由 準備語言本文以供該ASCII爲基礎之本文處理系統所 使用之方法,該語言包含超過256字元,該方法包含下 列步驟: ~ 4 - (請先閱讀背面之注意事項再填寫本頁) J 、-° 本紙張尺度逋用中國國家標隼(CNS ) A4規格(210X 297公釐) A8 B8 C8 D8 々、申請專利範圍 (a) 傳譯該語言本文爲十六進制字元串; (b) 映射該十六進制字元串爲唯一組之單位元組ASCII字 元;、 - (c) 插入字分隔符於該十六進制字元串以定界其構成字 於該語言之之該十六進制字元組,其中該語言之文 法規則可用以決定何處插入該字分隔符於該十六進 制字元_中,且在該輸入字元流中不需有特殊之字 元以分辨一個字或字元組及 (d) 傳輸表示該語言之字之唯一組之單位元组ASCII字元 » 至該自動化本文處理器程式以供進一步之處理。 13.根據申請專利範圍第12項之方法,其中該語言之複合字 之檢查表係用以便於分隔該某些複合字爲其分別之簡單 字成份於該十六進制字元串。 In II - I 11 ^^1 11 I 1— —^1Ά -I—· I.....I -I- - —1 - - H *1-^ (請先閲讀背面之注意事項再填寫本I) 經濟部中央標隼局員工消費合作社印製 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐)
TW082102915A 1992-04-13 1993-04-16 TW310400B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US07/867,852 US5337233A (en) 1992-04-13 1992-04-13 Method and apparatus for mapping multiple-byte characters to unique strings of ASCII characters for use in text retrieval

Publications (1)

Publication Number Publication Date
TW310400B true TW310400B (zh) 1997-07-11

Family

ID=25350593

Family Applications (1)

Application Number Title Priority Date Filing Date
TW082102915A TW310400B (zh) 1992-04-13 1993-04-16

Country Status (4)

Country Link
US (1) US5337233A (zh)
JP (1) JP3300866B2 (zh)
KR (1) KR100235223B1 (zh)
TW (1) TW310400B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7843365B2 (en) 2008-12-04 2010-11-30 Industrial Technology Research Institute Data encoding and decoding methods and computer readable medium thereof

Families Citing this family (79)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5511159A (en) * 1992-03-18 1996-04-23 At&T Corp. Method of identifying parameterized matches in a string
US5590317A (en) * 1992-05-27 1996-12-31 Hitachi, Ltd. Document information compression and retrieval system and document information registration and retrieval method
CA2125337A1 (en) * 1993-06-30 1994-12-31 Marlin Jay Eller Method and system for searching compressed data
CA2105847C (en) * 1993-09-09 1996-10-01 Adrian Storisteanu Method of editing text in column sensitive environments
US5742838A (en) * 1993-10-13 1998-04-21 International Business Machines Corp Method for conversion mode selection in hangeul to hanja character conversion
US5657259A (en) * 1994-01-21 1997-08-12 Object Technology Licensing Corp. Number formatting framework
US5822720A (en) 1994-02-16 1998-10-13 Sentius Corporation System amd method for linking streams of multimedia data for reference material for display
US5572668A (en) * 1995-02-07 1996-11-05 Oracle Corporation Method and apparatus for universal national language support program testing
US5778361A (en) * 1995-09-29 1998-07-07 Microsoft Corporation Method and system for fast indexing and searching of text in compound-word languages
US5624456A (en) * 1996-02-07 1997-04-29 Hellenkamp; Johann F. Automatic surgical device for cutting a cornea
US5802482A (en) * 1996-04-26 1998-09-01 Silicon Graphics, Inc. System and method for processing graphic language characters
US5787450A (en) 1996-05-29 1998-07-28 International Business Machines Corporation Apparatus and method for constructing a non-linear data object from a common gateway interface
US5778213A (en) * 1996-07-12 1998-07-07 Microsoft Corporation Multilingual storage and retrieval
US5793869A (en) * 1996-10-11 1998-08-11 Claflin, Jr.; Raymond E. Method and apparatus for encoding and data compressing text information
US6055365A (en) * 1996-11-08 2000-04-25 Sterling Software, Inc. Code point translation for computer text, using state tables
CA2194019C (en) * 1996-12-24 2000-02-22 Daniel A. Rose Encoding of language, country and character formats for multiple language display and transmission
US6292770B1 (en) * 1997-01-22 2001-09-18 International Business Machines Corporation Japanese language user interface for messaging system
AUPO977997A0 (en) * 1997-10-14 1997-11-06 Pouflis, Jason The utilisation of multi-lingual names on the internet
JPH11143877A (ja) * 1997-10-22 1999-05-28 Internatl Business Mach Corp <Ibm> 圧縮方法、辞書の見出し語インデックス・データを圧縮するための方法、及び機械翻訳システム
US6083856A (en) * 1997-12-01 2000-07-04 3M Innovative Properties Company Acrylate copolymeric fibers
US6007914A (en) * 1997-12-01 1999-12-28 3M Innovative Properties Company Fibers of polydiorganosiloxane polyurea copolymers
US6370581B2 (en) * 1998-06-04 2002-04-09 Sun Microsystems, Inc. Method, apparatus, and product for transmitting multibyte characters in a network
JP2000020444A (ja) * 1998-06-26 2000-01-21 Bariafurii:Kk 機能拡張装置および機能拡張方法ならびに機能拡張プログラムを記録した記録媒体
US6560596B1 (en) * 1998-08-31 2003-05-06 Multilingual Domains Llc Multiscript database system and method
EA004074B1 (ru) * 1998-09-29 2003-12-25 Эли Абир Способ и система для альтернативных идентификаторов адресов и ресурсов интернет
JP3961697B2 (ja) * 1998-10-07 2007-08-22 日東電工株式会社 自動車塗膜保護用シート
US6279828B1 (en) * 1999-03-01 2001-08-28 Shawwen Fann One dimensional bar coding for multibyte character
US6467038B1 (en) * 1999-03-12 2002-10-15 Compaq Information Technologies Group, L.P. Method for supporting optical international language modules flashed into ROM
JP2001125915A (ja) * 1999-10-28 2001-05-11 Fujitsu Ltd 情報検索装置
AU2001259949B2 (en) * 2000-05-24 2006-05-25 Web Wombat Pty Ltd Indexing and searching ideographic characters on a networked system of computers
US20020022953A1 (en) * 2000-05-24 2002-02-21 Bertolus Phillip Andre Indexing and searching ideographic characters on the internet
US7788602B2 (en) 2000-06-06 2010-08-31 Microsoft Corporation Method and system for providing restricted actions for recognized semantic categories
US7770102B1 (en) 2000-06-06 2010-08-03 Microsoft Corporation Method and system for semantically labeling strings and providing actions based on semantically labeled strings
US7421645B2 (en) * 2000-06-06 2008-09-02 Microsoft Corporation Method and system for providing electronic commerce actions based on semantically labeled strings
US7712024B2 (en) * 2000-06-06 2010-05-04 Microsoft Corporation Application program interfaces for semantically labeling strings and providing actions based on semantically labeled strings
US7716163B2 (en) 2000-06-06 2010-05-11 Microsoft Corporation Method and system for defining semantic categories and actions
US20040015584A1 (en) * 2000-10-09 2004-01-22 Brian Cartmell Registering and using multilingual domain names
US7032174B2 (en) * 2001-03-27 2006-04-18 Microsoft Corporation Automatically adding proper names to a database
US7778816B2 (en) 2001-04-24 2010-08-17 Microsoft Corporation Method and system for applying input mode bias
US7130861B2 (en) 2001-08-16 2006-10-31 Sentius International Corporation Automated creation and delivery of database content
US7325194B2 (en) * 2002-05-07 2008-01-29 Microsoft Corporation Method, system, and apparatus for converting numbers between measurement systems based upon semantically labeled strings
US20050108195A1 (en) * 2002-05-07 2005-05-19 Microsoft Corporation Method, system, and apparatus for processing information based on the discovery of semantically labeled strings
US7707496B1 (en) 2002-05-09 2010-04-27 Microsoft Corporation Method, system, and apparatus for converting dates between calendars and languages based upon semantically labeled strings
US7742048B1 (en) * 2002-05-23 2010-06-22 Microsoft Corporation Method, system, and apparatus for converting numbers based upon semantically labeled strings
US7707024B2 (en) 2002-05-23 2010-04-27 Microsoft Corporation Method, system, and apparatus for converting currency values based upon semantically labeled strings
US7281245B2 (en) 2002-06-05 2007-10-09 Microsoft Corporation Mechanism for downloading software components from a remote source for use by a local software application
US7827546B1 (en) 2002-06-05 2010-11-02 Microsoft Corporation Mechanism for downloading software components from a remote source for use by a local software application
US7356537B2 (en) 2002-06-06 2008-04-08 Microsoft Corporation Providing contextually sensitive tools and help content in computer-generated documents
US7003522B1 (en) 2002-06-24 2006-02-21 Microsoft Corporation System and method for incorporating smart tags in online content
US7716676B2 (en) 2002-06-25 2010-05-11 Microsoft Corporation System and method for issuing a message to a program
US20040001099A1 (en) * 2002-06-27 2004-01-01 Microsoft Corporation Method and system for associating actions with semantic labels in electronic documents
US7392479B2 (en) 2002-06-27 2008-06-24 Microsoft Corporation System and method for providing namespace related information
US7209915B1 (en) 2002-06-28 2007-04-24 Microsoft Corporation Method, system and apparatus for routing a query to one or more providers
US7783614B2 (en) 2003-02-13 2010-08-24 Microsoft Corporation Linking elements of a document to corresponding fields, queries and/or procedures in a database
US7711550B1 (en) 2003-04-29 2010-05-04 Microsoft Corporation Methods and system for recognizing names in a computer-generated document and for providing helpful actions associated with recognized names
US7558841B2 (en) 2003-05-14 2009-07-07 Microsoft Corporation Method, system, and computer-readable medium for communicating results to a data query in a computer network
CA2432868A1 (en) * 2003-06-20 2004-12-20 Ibm Canada Limited - Ibm Canada Limitee System and method of processing a document targeted for one system on another system
US7739588B2 (en) 2003-06-27 2010-06-15 Microsoft Corporation Leveraging markup language data for semantically labeling text strings and data and for providing actions based on semantically labeled text strings and data
US7747428B1 (en) * 2003-09-24 2010-06-29 Yahoo! Inc. Visibly distinguishing portions of compound words
US7404195B1 (en) 2003-12-09 2008-07-22 Microsoft Corporation Programmable object model for extensible markup language markup in an application
US7434157B2 (en) 2003-12-09 2008-10-07 Microsoft Corporation Programmable object model for namespace or schema library support in a software application
US7178102B1 (en) 2003-12-09 2007-02-13 Microsoft Corporation Representing latent data in an extensible markup language document
US7487515B1 (en) 2003-12-09 2009-02-03 Microsoft Corporation Programmable object model for extensible markup language schema validation
US7509573B1 (en) 2004-02-17 2009-03-24 Microsoft Corporation Anti-virus security information in an extensible markup language document
US7849085B2 (en) * 2004-05-18 2010-12-07 Oracle International Corporation System and method for implementing MBSTRING in weblogic tuxedo connector
WO2005124599A2 (en) * 2004-06-12 2005-12-29 Getty Images, Inc. Content search in complex language, such as japanese
US7260780B2 (en) 2005-01-03 2007-08-21 Microsoft Corporation Method and apparatus for providing foreign language text display when encoding is not available
US7992085B2 (en) 2005-09-26 2011-08-02 Microsoft Corporation Lightweight reference user interface
US7788590B2 (en) 2005-09-26 2010-08-31 Microsoft Corporation Lightweight reference user interface
AU2006318417B2 (en) * 2005-11-23 2012-01-19 Dun And Bradstreet Corporation System and method for searching and matching data having ideogrammatic content
US7738717B1 (en) * 2006-06-27 2010-06-15 Verizon Services Corp. Systems and methods for optimizing bit utilization in data encoding
US7924182B2 (en) * 2006-07-21 2011-04-12 Cap Epsilon, Inc. Typeless representation of alphanumeric symbols
WO2008151148A1 (en) * 2007-06-01 2008-12-11 Getty Images, Inc. Method and system for searching for digital assets
US20090157774A1 (en) * 2007-12-18 2009-06-18 International Business Machines Corporation Character pattern-based file storage tool
US8539359B2 (en) * 2009-02-11 2013-09-17 Jeffrey A. Rapaport Social network driven indexing system for instantly clustering people with concurrent focus on same topic into on-topic chat rooms and/or for generating on-topic search results tailored to user preferences regarding topic
US9454514B2 (en) * 2009-09-02 2016-09-27 Red Hat, Inc. Local language numeral conversion in numeric computing
CN102298582B (zh) * 2010-06-23 2016-09-21 商业对象软件有限公司 数据搜索和匹配方法和系统
US20120042263A1 (en) 2010-08-10 2012-02-16 Seymour Rapaport Social-topical adaptive networking (stan) system allowing for cooperative inter-coupling with external social networking systems and other content sources
US8676937B2 (en) * 2011-05-12 2014-03-18 Jeffrey Alan Rapaport Social-topical adaptive networking (STAN) system allowing for group based contextual transaction offers and acceptances and hot topic watchdogging

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6077222A (ja) * 1983-10-04 1985-05-01 Kanaasu Data Kk 多種文字処理端末装置
US5050121A (en) * 1990-01-22 1991-09-17 Vaughan H W Communication system which uses characters that represent binary-coded decimal numbers

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7843365B2 (en) 2008-12-04 2010-11-30 Industrial Technology Research Institute Data encoding and decoding methods and computer readable medium thereof

Also Published As

Publication number Publication date
JPH0689304A (ja) 1994-03-29
KR100235223B1 (ko) 1999-12-15
KR930022225A (ko) 1993-11-23
JP3300866B2 (ja) 2002-07-08
US5337233A (en) 1994-08-09

Similar Documents

Publication Publication Date Title
TW310400B (zh)
EP1868113B1 (en) Visualizing document annotations in the context of the source document
CN114616572A (zh) 跨文档智能写作和处理助手
US20060031207A1 (en) Content search in complex language, such as Japanese
US20070179932A1 (en) Method for finding data, research engine and microprocessor therefor
Ehrmann et al. Language resources for historical newspapers: the impresso collection
CN102640145A (zh) 可信查询系统和方法
Schmidt Stable random projection: Lightweight, general-purpose dimensionality reduction for digitized libraries
U Rahman Towards Sindhi corpus construction
Salah et al. [Retracted] A New Rule‐Based Approach for Classical Arabic in Natural Language Processing
Amensisa et al. A survey on text document categorization using enhanced sentence vector space model and bi-gram text representation model based on novel fusion techniques
Lu et al. A metadata generation system for scanned scientific volumes
JP2007128224A (ja) 文書インデキシング装置、文書インデキシング方法及び文書インデキシングプログラム
Malagi et al. Content Modelling Intelligence System Based on Automatic Text Summarization
EP1605371A1 (en) Content search in complex language, such as japanese
Taghva et al. Farsi searching and display technologies
Gutehrlé et al. Logical Layout Analysis Applied to Historical Newspapers
JPS61248160A (ja) 文書情報登録方式
Brunt The code and the catalogue: a return to compatibility
Chaimongkol et al. Utilizing LDA clustering for technical term extraction
Bairaktaris et al. DUTH at SemEval-2020 Task 11: BERT with entity mapping for propaganda classification
Sadek et al. Building a causation annotated corpus: the Salford Arabic Causal Bank-proclitics
JPH08115330A (ja) 類似文書検索方法および装置
Chidiebere et al. Analysis and representation of Igbo text document for a text-based system
WO2002095614A1 (fr) Procede d&#39;identification d&#39;un systeme de code de type langage ou par caracteres